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内 容 简 介 


本 书 主要 介绍 了 深度 学 习 的 基础 原理 和 TensorFlow 系统 基本 使 用 方法 。TensorFlow 
是 目前 机 器 学 习 、 深 度 学 习 领域 最 优秀 的 计算 系统 之 一 ， 本 书 结合 实例 介绍 了 使 用 
TensorFlow 开发 机 器 学 习 应 用 的 详细 方法 和 步骤 。 同 时， 本 书 着 重 讲解 了 用 于 图 像 识 
别 的 卷 积 神经 网 络 和 用 于 自然 语言 处 理 的 循环 神经 网 络 的 理论 知识 及 其 TensorFlow 实 
现 方法 ， 并 结合 实际 场景 和 例子 描述 了 深度 学 习 技 术 的 应 用 范围 与 效果 。 

本 书 非常 适合 对 机 器 学 习 、 深 度 学 习 感 兴趣 的 读者 ， 或 是 对 深度 学 习 理 论 有 所 了 
解 ， 希 望 尝试 更 多 工程 实践 的 读者 ， 抑 或 是 对 工程 产品 有 较 多 经 验 ， 希 望 学 习 深度 学 
习 理 论 的 读者 。 


未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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好 评 歼 来 


可 能 有 的 人 还 没有 觉察 到 , 当前 正 是 新 的 一 场 技术 革命 爆发 的 起 始点 。 人 工 智能 
时 代 从 “即将 来 临 ”已 经 变 成 了 “正在 来 临 ”。 推 动 这 场 技术 革命 的 正 是 深度 学 习 技 
术 的 发 展 ，Google 的 围棋 算法 AlphaGo 战胜 了 李 世 石 ，Google 的 深度 学 习 框 架 
TensorFlow 也 迅速 风靡 业界 ， 一 跃 成 为 最 活跃 的 深度 学 习 框 架 。 


本 书 基于 作者 们 使 用 TensorFlow 的 一 手 实践 , 由 浅 入 深 地 介绍 了 TensorFlow R 
构 和 其 上 的 各 种 深度 神经 网 络 算法 实现 ， 并 给 出 实际 的 例子 ， 非 常 适合 AI 爱好 者 学 
习 ， 可 以 较 全 面 地 掌握 深度 学 习 的 知识 ， 并 具备 实战 的 能 力 。 未 来 的 AI 时 代 里 ， 深 
度 学 习 技术 将 成 为 程序 员 重 要 的 基础 能 力 ， 向 所 有 意识 到 这 一 点 的 人 推荐 此 书 ! 


一 一 爱 因 互动 创始 人 &CTO 洪 强 宁 


TensorFlow 的 出 现 和 成 熟 ， 改 变 了 深度 学 习 的 入 门 和 深造 路 径 。 今 天 我 们 完全 
有 可 能 从 具体 需求 出 发 ， 以 实践 主导 , 比较 容易 地 入 门 这 一 前 沿 人 工 智 能 技术 。 但 是 
要 超越 写 写 例子 、 做 做 Demo 的 层次 ,创造 性 地 解决 新 问题 ， 必 须 在 理论 上 达到 一 定 
的 理解 高 度 。 本 书 就 是 沿 着 这 样 一 个 思路 展开 的 ， 本 书 作 者 开辟 了 一 条 由 实践 主导 、 
兼顾 理论 的 深度 学 习 成 功 之 路 ， 而 且 语 言 生动 ,行文 细腻 ， 交 代 清 晰 ， 对 后 来 的 学 习 
者 是 一 份 难得 的 指南 。 


一 一 AI100 联合 创始 人 a 
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本 书 深入 浅 出 地 介绍 了 TensorFlow 的 技术 架构 以 及 深度 学 习 领 域 常见 的 网 络 结 
构 和 相关 理论 ， 并 结合 图 像 、 文 本 分 析 处 理 等 多 个 实用 的 具体 实例 演示 了 如 何 使 用 
TensorFlow 实战 深度 学 习 开发 ， 是 一 本 内 容 翔实 的 TensorFlow 开发 指导 书 ， 强 烈 扒 
荐 ! 


一 一 东方 网 力 科技 股份 有 限 公司 CTO 蒋 宗 文 


随 着 深度 学 习 在 语音 、 图 像 和 自然 语言 理解 等 领域 取得 了 巨大 的 技术 进步 , 对 于 
初学 者 而 言 ， 一 本 深入 浅 出 、 通 俗 易 懂 、 融 合 基础 理论 和 实战 的 入 门 书 非常 重要 。 

近年 来 ，TensorFlow 广 受 业 界 追 捧 。 因 此 ， 本 书 以 此 平台 作为 介绍 深度 学 习 的 
媒介 , 有 利于 读者 快速 地 运用 所 学 知识 , 融合 到 工程 实践 、 科 研 或 系统 研发 任务 中 去 。 


另外 , 本 书 的 一 个 主要 特点 还 在 于 理论 和 实践 的 有 机 结合 。 本 书 较 全 面 地 介绍 了 
深度 学 习 的 基础 理论 知识 ， 还 通过 丰富 的 实例 及 代码 为 读者 提供 了 在 TensorFlow 平 
台 上 进行 实践 的 机 会 一 一 这 大 大 增加 了 培养 读者 学 习 兴趣 和 实战 经 验 的 可 能 性 。 书 中 
给 出 的 实例 涉及 图 像 处 理 、 自 然 语言 理解 、 对 话 系统 、 看 图 说 话 等 。 


本 书 不 仅 适合 广大 本 科 同 学 以 及 研究 生 入 门 学 习 使 用 , 也 可 以 作为 经 验 丰富 的 工 
程 师 或 者 研究 人 员 的 案头 参考 。 


衷心 祝愿 此 书 能 够 成 为 深度 学 习 爱好 者 的 良师益友 ! 
一 一 徐 金 安 博士 


BAER, 深度 学 习 是 近年 来 人 工 智能 和 机 器 学 习 领域 最 热门 的 技术 , 在 很 多 应 
用 领域 发 挥 着 革命 性 的 作用 。 同 样 毫 无 疑问 , 深度 学 习 得 以 广泛 应 用 的 重要 原因 之 一 ， 
是 很 多 公司 与 学 术 机 构 推 出 了 高 效 可 用 的 深度 学 习 开源 框架 , 使 人 人 都 能 够 快速 构建 
自己 的 深度 学 习 模型 。 在 众多 深度 学 习 框架 中 ，TensorFlow 出 自 深度 学 习 重 要 推手 
的 Google 公司 ， 甫 一 问世 就 得 到 大 家 密切 关注 。 经 过 Google 的 几 次 密级 改版 , 现在 
TensorFlow 已 经 快速 成 长 为 深度 学 习 的 首选 开发 平台 。 本 书 系统 介绍 了 深度 学 习 的 
基本 思想 和 TensorFlow 的 实现 方法 ， 是 深度 学 习 快速 上 手 和 入 门 的 好 书 。 


一 一 清华 大 学 计算 机 系 助理 教授 刘知远 
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i, 拥有 博士 学 位 ， 百 纳 信息 技术 有 限 公司 高 级 算法 研究 员 , 毕业 于 中 国 地 
质 大 学 计算 机 学 院 地 学 信息 工程 专业 。 读 博 期 间 , 参与 了 关于 遥感 卫星 图 像 识别 分 析 
的 863 ME, 并 且 是 主要 的 研发 人 员 。 毕 业 以 来 , 一 直 从 事 图 像 识 别 方面 的 算法 研发 
Ife, 主要 方向 包括 目标 检测 、 图 文 检索 、 图 像 分 类 与 验证 等 ,在 图 像 处 理 、 计 算 机 
视觉 等 方面 都 有 深厚 的 积累 和 经 验 。 


高 杰 ， 是 一 位 1980 年 出 生 于 苏 北 的 “ 爱 学 习 、 能 折腾 、 有 情怀 ”的 大 叔 。 毕 业 
于 扬州 中 学 特 招 班 ，1998 年 入 学 华中 科技 大 学 机 械 系 ， 兼 修 管理 、 会 计 ， 自 学 计算 
机 ，2003 年 考 入 南京 大 学 软件 学 院 ， 曾 任 德国 西门 子 内 部 SAP 咨询 师 ， 还 在 中 银 国 
PR TMT 投行 、 金 山 软件 集团 投资 部 任 过 职 ,2015 年 与 合伙 人 联合 创立 了 图 灵 科 技 集 
Al, 与 华尔街 项 尖 交易 团队 一 起 致力 于 量化 交易 、 算 法 模型 和 人 工 智能 在 金融 领域 的 
应 用 ， 目 前 这 家 公司 管理 着 超过 20 亿 元 的 资产 ， 是 细 分 市 场 的 领先 公司 。 
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从 理论 到 工程 


技术 发 展 的 过 程 就 是 人 类 在 探索 自身 创造 能 力 边界 的 过 程 , 而 人 工 智能 无 疑 是 最 
重要 以 及 影响 最 深远 的 领域 之 一 。 

AlphaGo 及 其 马甲 Master 在 围棋 领域 大 胜 人 类 顶尖 高 手 之 后 ， 在 智力 分 析 领 域 
人 类 优势 开始 出 现 裂痕 。 而 在 “ 听 说 读 写 ”方面 ,不管 是 语音 识别 、 语 音 合 成 、 机 器 
翻译 , 还 是 图 像 识 别 、 物 体 识别 ， 甚 至 是 自动 文章 生成 、 自 动 曲 谱 生 成 、 艺 术 图 像 合 
成 方面 , 机 器 已 经 开始 做 得 比 人 类 更 为 强大 。 深 度 学 习 在 工程 领域 的 突破 ,使 得 “机 
器 学 习 ” 走 出 了 实验 室 , 进入 到 工程 领域 , 人 类 开始 重新 审视 机 器 能 带 来 的 更 多 可 能 
性 。 


正如 2007 年 以 iPhone 为 代表 的 智能 手机 出 现 , 10 年 之 间 已 经 颠覆 了 诸多 商业 领 
域 、 影 响 了 人 类 的 生活 方式 一 样 ， 深 度 学 习 也 必 将 如 此 ， 作 为 一 名 技术 人 ， 必 须 理解 
和 跟 上 行业 和 时 代 的 变革 ! 


在 过 去 的 计算 机 技术 演变 过 程 中 , 数据 主线 ( 展示 、 逻辑 、 存 储 )、 架 构 主线 ( C/S， 
B/S, SASS) 、 语 言 框架 平台 主线 OMA, E. ER, BERA FE) 的 变迁 基本 
有 迹 可 循 , 易于 举一反三 , 迁移 学 习 曲 线 相对 平缓 。 而 机 器 学 习 的 学 习 曲 线 相当 陡峭 ， 
需要 同时 专注 于 数据 处 理 、 模 型 构建 以 及 结果 优化 , 颠覆 了 我 们 以 往 对 数据 处 理 的 理 
解 。 作 为 工程 业界 人 士 来 说 ,没有 机 器 学 习 理 论 基础 的 支持 ,几乎 无 法 应 用 相关 的 工 
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Hs 而 没有 工程 实践 的 尝试 ， 又 很 难 体系 化 理解 理论 基础 一 一 入 门 着 实 不 易 。 


本 书 的 作者 为 具有 多 年 研究 经 验 的 博士 和 多 年 业界 工程 研发 经 验 的 团队 ,他们 在 
工程 领域 的 经 验 能 快速 地 帮助 读者 理解 TensorFlow 的 基础 概念 ， 并 以 最 快速 度 搭建 
环境 和 跑 通 Demo。 更 为 重要 的 是 ， 他 们 从 学 术 + 工 程 领域 的 角度 ， 高 屋 建 领地 擒 出 
T CNN ( 卷 积 神经 网 络 ) RNN ( 循环 神经 网 络 ) 、CNN+LSTM ( Long Short Term 
网 络 ) 的 基本 原理 ,并 且 结合 CNN 在 图 像 领域 处 理 、RNN 在 语义 领域 处 理 以 及 结合 
CNN+LSTM 在 图 像 检 测 和 图 像 摘 要 生成 等 基本 工程 领域 的 处 理 ， 快 速 地 让 读者 理解 
深度 学 习 能 干什么 ， 如 何 利用 TensorFlow 快速 解决 这 些 领 域 的 问题 ， 让 自己 的 应 用 
插 上 “人 工 智 能 ”的 翅膀 ! 


人 工 智能 的 时 代 已 经 开启 , 唯 有 快速 拥抱 变化 才能 应 对 变化 , 希望 读者 能 借 这 本 
书 建立 对 机 器 学 习 的 宏观 认识 并 对 之 深入 理解 ， 跑 步 进 入 机 器 学 习 领 域 ! 


刘 铁 锋 
《编程 之 美 》 作 者 
海豚 浏览 器 创始 人 
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All HALA AERP ELE A ETE RR AOE AB. Él 20 世纪 50 年 代 图 灵 测试 
被 提出 以 来 , 人 工 智 能 就 成 为 了 计算 机 科学 领域 中 一 个 极 具 吸引 力 的 研究 方向 。 近 年 
来 ， 深 度 学 习 是 机 器 学 习 领域 中 一 个 非常 具有 突破 性 的 研究 方向 ， 从 AlphaGo 战胜 
李 世 石 ， 到 Prisma 运用 深度 学 习 技 术 制 作 滤 镜 刷 爆 全 世界 的 社交 网 络 ， 深 度 学 习 在 
图 像 处 理 、 自 然 语言 处 理 甚至 博弈 决策 等 问题 上 不 断 取得 震惊 世人 的 成 绩 。 

随 着 科研 理论 上 的 不 断 突破 , 机 器 学 习 基 础 架构 方面 也 有 了 长 足 进步 。 为 了 提高 
科研 和 应 用 的 开发 效率 ， 面 向 深度 学 习 的 开发 框架 不 断 涌现 ， 而 TensorFlow 就 是 其 
中 的 佼佼 者 。 依 托 于 Google 强大 的 影响 力 ，TensorFlow 一 经 发 布 就 吸引 | 了 整个 行业 
的 关注 。TensorFlow Él 2015 年 年 底 在 GitHub 开源 以 来 一 直 是 机 器 学 习 、 深 度 学 
习 类 别 中 关注 度 最 高 的 项 目 , 截至 2016 FER, 已 经 获得 超过 40000 Staro FR, 
在 开源 社区 共同 的 努力 下 ， 基 于 TensorFlow 开发 的 各 种 算法 和 应 用 都 在 飞速 增加 。 

本 书 结合 基于 TensorFlow 实践 的 应 用 代码 , 介绍 了 深度 学 习 的 基础 概念 和 知识 ， 
但 需要 读者 预先 掌握 一 些 传统 机 器 学 习 、 神 经 网 络 相 关 方 面 的 知识 。 同时， 本 书 代 码 
主要 基于 目前 最 新 的 TensorFlow 1.0 版 本 ， 大 部 分 为 Python 代码 ， 需 要 读者 有 一 定 
的 Python 语言 基础 。 希 望 通过 本 书 的 介绍 ， 读 者 可 以 由 浅 入 深 、 由 理论 到 实践 全 面 
掌握 深度 学 习 的 基础 知识 和 实践 方法 。 

本 书 第 1 章 介绍 了 深度 学 习 的 由 来 以 及 发 展 趋势 , 简要 说 明了 人 工 智能 、 机 器 学 
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习 、 深 度 学 习 等 名 词 概 念 之 间 的 联系 。 第 2 章 主要 介绍 了 TensorFlow 系统 的 基础 知 
识 和 一 些 重要 概念 。 第 3 章 通 过 对 Kaggle 竞赛 平台 上 的 Titanic 问题 的 求解 实例 , JT 
绍 了 TensorFlow 系统 的 基本 用 法 ， 并 简要 介绍 了 机 器 学 习 问 题 中 的 一 些 常用 的 处 理 
技巧 。 第 4 章 和 第 5 章 分 别 介绍 了 主要 应 用 于 图 像 处 理 领域 的 卷 积 神经 网 络 CNN 和 
主要 应 用 于 自然 语言 处 理 领域 的 循环 神经 网 络 RNN。 其 中 第 4 章 介绍 了 CNN 的 基本 
原理 和 多 个 经 典 网 络 结构 ， 并 通过 图 像 风 格 化 的 实例 展示 了 CNN 在 更 多 场景 下 应 用 
的 可 能 性 。 第 5 章 介绍 了 RNN, LSTM 以 及 它们 的 多 种 变种 结构 ， 并 通过 实例 介绍 
了 如 何 构建 实用 的 语言 模型 和 对 话机 器 人 。 第 6 章 介绍 了 卷 积 神经 网 络 与 循环 神经 网 
络 的 结合 , 通过 图 像 检测 和 图 像 摘要 两 个 问题 介绍 了 CNN+LSTM 相 结 合 的 威力 。 最 
后 的 第 7 章 介绍 了 机 器 学 习 中 非常 重要 的 损失 函数 与 优化 算法 在 TensorFlow 中 的 实 
现 ， 对 实际 使 用 深度 学 习 解 决 问题 都 有 极 大 帮助 。 








在 此 感谢 互联 网 时 代 ， 感 谢 Google 的 开源 精神 ， 让 我 们 可 以 如 此 紧 跟 时 代 最 前 
沿 的 技术 , 也 可 以 为 技术 的 进步 做 出 自己 微薄 的 贡献 。 还 要 感谢 电子 工业 出 版 社 刘 接 
编辑 对 新 技术 的 关注 和 推广 , 感谢 同事 、 家 人 、 和 名 位 好 友 的 支持 和 帮助 ， 有 你 们 的 支 
持 才 有 此 书 的 出 版 ， 不 胜 感 激 。 
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深度 学 习 简 介 


1.1 深度 学 习 介 绍 


深度 学 习 是 目前 机 器 学 习 学 科 发 展 最 迁 勃 的 分 支 , 也 是 整个 人 工 智能 领域 中 应 用 
前 景 最 为 广阔 的 技术 。 在 现 如 今 的 生活 中 , 不 管 是 在 iPhone 上 随手 调戏 Siri， 还 是 看 
着 AlphaGo 赢得 国 棋 世界 第 一 的 宝座 ， 都 让 人 们 真 真 切切 地 感受 到 人 工 智能 已 经 个 
再 是 停留 在 科幻 小 说 中 的 幻想 ， 深 度 学 习 的 时 代 已 经 到 来 了 ! 


人 工 智能 (Artificial Intelligence, AL) 是 计算 机 科学 中 的 一 个 分 支 学 科 ， 早 在 
20 世纪 50 年 代 就 被 提出 和 确立 了 。 著 名 的 “图 灵 测 试 ”是 AI 发 展 的 终极 目标 ， 如 
果 某 种 机 器 运行 的 逻辑 程序 可 以 表现 出 与 人 类 等 价 或 者 无 法 分 辨 的 智能 , 则 认为 机 器 
有 了 思维 ， 能 够 进行 思考 。 从 实用 的 角度 讲 ，AI 的 目标 是 要 让 计算 机 系统 能 够 自动 
完成 那些 需要 依靠 人 类 智慧 才能 完成 的 工作 。 

在 AI 发 展 的 早期 阶段 , 随 着 计算 机 自动 化 所 取得 的 成 功 ,AI 的 主要 方法 和 思路 
是 将 人 类 总 结 的 知识 用 一 系列 规范 的 、 形 式 化 的 数学 规则 来 表示 , 然后 通过 自动 化 的 
程序 代替 人 类 处 理 问题 。 以 知识 为 基础 的 专家 系统 ( knowledge-based expert system ) 
就 是 这 方面 的 典型 代表 , 它 将 某 个 领域 中 人 类 专家 的 经 验 通过 知识 表示 方法 写成 一 条 
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一 条 规则 ， 系 统 依照 规则 推理 模拟 专家 的 思维 方式 。 不 过 ,在 实际 应 用 中 ,专家 系统 
都 没有 取得 太 大 的 成 功 , 其 最 主要 的 局 限 性 体现 在 系统 明显 受到 规则 数量 的 限制 , 规 
则 数量 决定 了 系统 对 不 同情 况 的 适应 程度 , 然而 规则 是 有 限 的 , 问题 发 生 时 的 状况 是 
无 限 的 ， 用 有 限 的 规则 处 理 无 限 的 可 能 ， 注 定 是 苦海 无 涯 。 


早期 在 AI 方面 取得 成 功 的 项 目 ， 多 数 解决 的 是 具有 明确 规则 和 条 件 的 问题 ， 比 
如 西洋 跳棋 。1997 年 IBM 的 “深蓝 ”计算 机 在 国际 象棋 上 战胜 人 类 世界 冠军 卡 斯 帕 
罗 夫 就 是 这 个 方面 最 著名 的 例子 。 对 于 人 类 来 说 , 下 象棋 当然 是 很 有 挑战 的 项 目 , 但 
是 相 比 真实 世界 的 复杂 程度 而 言 ， 国 际 象棋 其 实 只 是 一 个 简单 问题 。 棋 盘 上 只 有 32 
个 棋子 和 64 个 可 以 落 子 的 位 置 ， 走 法 规则 是 非常 明确 的 ， 所 有 可 能 的 局 面 组 合 是 有 
RAS, 可 以 被 穷 举 出 来 , 利用 计算 机 的 计算 能 力 辅助 以 启发 式 搜索 等 算法 , 在 摩尔 定 
律 的 作用 下 ， 击 败 人 类 只 是 时 间 问 题 。 在 这 类 问题 中 ， 问 题 的 表示 通常 都 不 是 难题 ， 
一 个 普通 程序 员 也 可 以 在 很 短 时 间 内 完成 一 个 象棋 程序 。 然 而 许多 真实 世界 的 问题 却 
并 不 都 是 那么 容易 能 用 计算 机 语言 表达 清楚 的 , 比如 图 像 识别 和 语音 识别 , 这 些 问题 
有 着 比 国际 象棋 大 得 多 的 问题 域 , 即使 对 于 人 类 来 说 , 也 有 很 多 不 能 确定 、 无 法 选择 
的 时 刻 ， 所 以 用 规则 来 描述 问题 是 不 现实 的 。 


因此 ,“ 演 绎 法 ”的 规则 推理 暂时 行 不 通 ,“ 归 纳 法 ”就 成 为 了 唯一 的 出 路 。 基 于 
概率 统计 的 机 器 学 习 (machine learning) 逐渐 成 为 人 工 智能 的 主流 方法 。 与 专家 系 
统 不 同 , 机 器 学 习 不 会 在 系统 中 输入 任何 规则 , 而 是 直接 在 大 量 真实 世界 产生 的 数据 
中 挑选 最 具有 代表 性 的 样本 〈samples ) 交 给 算法 处 理 ， 让 算法 自动 在 数据 中 寻找 和 
学 习 特 定 的 规律 ,而 这 些 由 数据 得 来 的 规律 , 就 是 我 们 本 来 需要 输入 的 规则 。 这 种 从 
数据 中 学 习 规律 的 过 程 也 叫做 模式 识别 ( pattern recognition )。 


机 器 学 习 的 基本 思路 是 假设 样本 数据 与 真实 世界 的 概率 分 布 相同 ,这样 就 可 以 认 
为 算法 从 样本 数据 中 归纳 所 得 的 规律 在 一 般 情 况 下 同样 适用 。 朴 素 贝 叶 斯 ( naive 
bayes ) 和 逻辑 回归 (logistic regression ) 等 算法 都 是 机 器 学 习 的 经 典 方法 ， 并 且 都 在 
实际 应 用 中 取得 了 很 好 的 效果 。 

机 器 学 习 一 般 分 为 监督 学 习 和 无 监督 学 习 两 种 。 监 督学 习 要 求 每 条 样本 数据 都 有 
对 应 的 标签 (label )， 样 本 数据 作为 输入 ， 标 签 作为 目标 输出 ， 学 习 的 目标 是 求 出 输 
入 与 输出 之 间 的 关系 函数 y = f(x)， 使 得 针对 每 个 输入 样本 x， 都 得 到 期 望 的 输出 结 
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习 来 说 , 样本 数据 并 没有 标签 , 学 习 的 目标 是 为 了 探索 样本 数据 之 间 是 否 有 隐 含 的 个 
易 被 发 现 的 关系 ， 统 计 样本 的 分 布 情况 ， 典 型 的 算法 有 K-means 等 各 种 聚 类 算法 。 


监督 学 习 主 要 解决 两 类 核心 问题 , 即 回归 ( regression ) 和 分 类 ( classification )。 
回归 和 分 类 的 区 别 在 于 强调 一 个 是 连续 的 , 一 个 是 离散 的 。 回 归 的 输出 可 以 是 任意 实 
数 ,而 分 类 的 目标 输出 为 离散 的 类 别 编号 , 或 是 布尔 类 型 的 二 值 判 断 。 分 类 问题 可 以 
利用 概率 模型 以 回归 方式 来 求解 ， 即 认为 样本 所 属 的 真实 类 别 概率 为 100%， 样 本 属 
于 其 他 类 别 的 概率 为 0%。 通 过 将 离散 的 类 别 编号 转化 为 连续 的 概率 ， 利 用 回归 方法 
学 习 和 预测 样本 属于 每 个 类 别 的 概率 ， 概 率 最 大 的 类 别 就 是 分 类 结果 。 


对 于 朴素 贝 叶 斯 和 有 逻辑 回归 等 简单 的 机 器 学 习 算法 来 说 ,本 质 上 是 要 计算 样本 输 
入 与 目标 输出 之 间 的 相关 性 。 相 关 性 固然 是 非常 重要 的 , 但 在 处 理 真实 世界 问题 的 时 
候 , 判断 相关 性 其 实 是 人 们 确定 了 所 有 影响 因素 之 后 的 一 个 后 续 问 题 ， 各 个 影响 因素 
的 表示 (representation) 会 严重 影响 对 于 相关 性 的 判断 。 比如 要 辨别 一 段 语 音 中 演 
讲 者 是 男人 、 女 人 还 是 小 孩 , 简单 机 器 学 习 算法 的 判断 依据 很 可 能 主要 来 自 音量 而 不 
是 音色 和 音调 。 再 比如 , 假设 我 们 想 用 逻辑 回归 判断 明年 北京 房价 是 否 继续 上 涨 , 如 
果 选 定 人 口 净 流入 数 和 地 铁 修建 的 里 程 数 作为 输入 的 话 , 会 得 到 入口 流入 越 多 房价 越 
高 的 结论 , 那么 如 果 明 年 人 口 净 流入 减少 , 则 系统 会 预测 房价 下 跌 。 但 真实 情况 是 房 
价 与 货币 增发 量 相 关 性 更 大 ,如 果 明 年 货币 继续 超 发 , 最 终 房价 还 是 会 上 涨 , 所 以 预 
测 就 可 能 会 出 现 比 较 大 的 误差 。 


人 口 流入 数 、 货 币 增发 量 这 些 对 于 预测 房价 有 影响 的 因素 , 是 我 们 从 众多 维度 中 
提取 的 特征 〈 feature )。 正 如 在 前 文 例子 中 描述 的 那样 ， 设 计 合适 的 特征 表示 在 机 器 
学 习 中 是 一 项 极其 重要 却 又 非常 困难 的 工作 。 一 方面 , 特征 选取 会 直接 影响 预测 的 稳 
定性 , 要 得 到 准确 的 预测 结果 就 必须 选中 相关 度 最 高 的 特征 。 在 使 用 逻辑 回归 、 村 素 
贝 叶 斯 等 简单 机 器 学 习 算法 的 时 候 , 由 于 特征 选取 问题 而 导致 模型 失效 的 情况 比比 共 
是 。 但 另 一 方面 ,如 何 设计 特征 又 需要 加 入 许多 人 类 的 先 验 经 验 才能 完成 , 需要 运用 
人 类 的 智慧 和 经 验 分 析 各 种 因素 所 带 来 的 直接 或 间接 的 影响 。 所 以 通常 的 做 法 是 首先 
列举 出 各 种 可 能 的 特征 ， 然 后 通过 交叉 组 合 的 方式 进行 穷 举 验证 。 在 很 长 一 段 时 间 ， 
特征 工程 ( feature engineering) 都 是 机 器 学 习 的 重 中 之 重 ， 是 每 个 研究 员 的 必修 技 
能 。 特 征 工程 对 于 传统 机 器 学 习 算法 来 说 是 如 此 重要 , 但 同时 也 是 机 器 学 习 应 用 的 最 
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大 束缚 , 不 仅 费时 费力 , 还 需要 由 人 类 提供 大 量 的 先 验 经 验 以 弥补 对 数据 本 身 挖掘 不 
足 的 缺陷 。 若 要 拓展 机 器 学 习 的 适用 范围 ,必须 要 降低 学 习 算 法 对 特征 工程 的 依赖 性 。 


深度 学 习 (Deep Learning， 也 曾 被 叫 作 Feature Learning) 是 在 人 工 神经 网 络 
C Aritificial neural network, ANN) 基础 上 发 展 而 来 的 一 种 表示 学 习 ( Representation 
Learning) 方法 , 也 是 一 种 机 器 学 习 方 法 , 而 且 是 人 工 智能 领域 最 具 发 展 前 景 的 一 个 
分 支 ， 如 图 1-1 所 示 。 其 主要 模型 是 各 种 深度 神经 网 络 (Deep Neural Network )。 表 
示 学 习 是 近年 来 机 器 学 习 领 域 发 展 最 迅猛 、 最 受 学 术 界 追捧 的 方向 。 所 谓 表示 学 习 ， 
就 是 要 让 算法 在 少量 人 为 先 验 经 验 的 情况 下 ， 能 够 自动 从 数据 中 抽取 出 合适 的 特征 ， 
完成 原本 需要 通过 特征 工程 才能 得 到 的 结果 。 在 表示 学 习 范畴 中 , 深度 学 习 是 通过 多 
层 非 线性 变换 的 组 合 方式 , 得 到 更 抽象 也 更 有 效 的 特征 表示 。 原先 使 用 机 器 学 习 解 决 
问题 的 主要 工作 包括 需要 大 量 人 工 处 理 的 特征 工程 加 上 一 个 可 被 训练 的 分 类 器 , 而 到 
了 深度 学 习 的 时 代 , 特征 工程 已 经 被 各 种 可 训练 的 特征 提取 器 所 取代 , 在 应 用 效率 上 
有 了 显著 提高 。 更 重要 的 是 ， 人 工 智能 目标 就 是 让 机 器 有 能 力 理解 我 们 所 在 的 世界 ， 
只 有 当 它 能 学 会 如 何 感知 和 辨别 数据 背后 的 各 种 隐 含 因素 的 时 候 才 能 达到 这 个 目标 。 





图 1-1 ”深度 学 习 是 一 种 机 器 学 习 方法 ， 是 人 工 智能 领域 最 具 前 景 的 分 支 


真实 世界 的 问题 之 所 以 困难 , 很 大 程度 上 是 因为 我 们 能 够 观察 到 的 数据 都 是 种 种 
因素 益 加 而 成 的 。 比 如 同一 打 花 在 白天 和 夜晚 观察 的 颜色 是 不 同 的 , 同一 辆 车 在 不 同 
角度 观察 的 形状 也 不 一 样 。 表示 学 习 最 核心 的 诉求 就 是 要 发 现 真 正 重要 的 特征 , 舍弃 
那些 并 不 影响 判断 的 因素 。 要 做 到 这 种 程度 当然 不 是 一 件 容易 的 事 , 那么 深度 学 习 又 
是 如 何 做 到 呢 ? 


深度 学 习 是 通过 构建 一 个 多 层 的 表示 学 习 结构 , 使 用 一 系列 非 线 性 变换 操作 把 从 
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原始 数据 中 提取 的 简单 的 特征 进行 组 合 , 从 而 得 到 更 高 层 、 更 抽象 的 表示 。 在 图 像 识 
别 的 场景 中 , 图 像 在 计算 机 中 最 基本 的 表示 是 一 组 像素 值 集合 , 从 像素 到 物体 的 映射 
关系 需要 经 过 一 个 很 长 的 过 程 ， 从 像素 组 成 细小 的 边 , 由 边 组 成 基础 的 纹理 基 元 ， 纹 
理 基 元 组 合 而 成 图 形 ， 图 形 构成 物体 的 各 种 组 成 部 分 ， 最 后 组 成 物体 的 整体 。 同 样 ， 
对 于 文本 的 理解 也 符合 类 似 的 过 程 ， 先 认识 各 个 字母 , 再 由 字母 组 成 单词 ,单词 组 成 
词组 ， 词 组 组 成 句子 ,句子 组 成 段落 ,段落 构成 完整 的 故事 。 这 个 过 程 对 于 人 类 来 说 
蝶 眼 之 间 就 已 经 完成 了 , 但 是 对 于 计算 机 来 说 是 非常 复杂 的 , 很 难 简 单 直接 地 一 步 求 
得 这 种 映射 关系 。 因 此, 深度 学 习 模型 的 结构 设计 遵循 了 这 种 思路 , 具体 做 法 是 将 一 
系列 相对 简单 的 非 线性 映射 操作 构建 成 一 个 多 层 网 络 , 每 一 层 (layer ) 都 完成 一 次 特 
征 变换 。 以 人 脸 识别 为 例 , 网 络 以 像素 表示 的 图 像 作为 输入 , 在 低级 层次 中 主要 学 习 
到 代表 图 像 边缘 的 特征 , 可 能 是 连续 几 个 像素 所 组 成 的 某 个 方向 上 的 线段 。 中 级 层次 
会 学 习 到 由 边缘 线段 所 组 成 的 局 部 图 案 , 这 些 图 案 实 际 上 是 构成 目标 物体 的 各 种 部 件 ， 
比如 眼睛 、 鼻子、 耳朵 。 在 最 后 的 高 级 层次 中 ,以 各 种 局 部 部 件 作为 基本 单元 就 可 以 
组 合 出 人 脸 的 抽象 表示 , 比如 包括 人 脸 上 会 有 一 个 鼻子 两 只 眼睛 、 眼 睛 的 相对 位 置 在 
久子 的 两 侧 ， 等 等 。 而 符合 这 种 抽象 表示 的 图 像 ， 就 可 以 被 判定 为 人 脸 图 片 。 如 此 多 
层 学 习 结 构 中 的 中 间 特 征 如 图 1-2 所 示 。 








L2 多 层 学 习 结 构 中 的 中 间 特 征 


那 什么 样 的 结构 才 算是 有 “深度 ”? 其 实 包含 三 个 以 上 隐 层 (hidden layer ) 的 神 
经 网 络 就 可 以 说 是 一 种 深度 学 习 模 型 , 但 由 于 在 真实 场景 使 用 时 参数 过 多 、 计 算 量 过 
大 ,存在 梯度 消失 和 梯度 爆炸 的 问题 ,无 法 做 到 稳定 收敛 ， 所 以 一 般 不 会 使 用 。 一 个 
网 络 的 深度 , 可 以 以 网 络 中 串联 的 计算 的 层 数 ,或 者 是 非 线性 变换 次 数 ， 甚 至 更 加 抽 
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象 一 些 ， 以 不 同 的 计算 概念 来 评估 。 关 键 在 于 ,深度 学 习 比 传统 机 器 学 习 模型 多 了 多 
级 特征 提取 的 结构 ， 能够 进行 表示 学 习 ， 这 样 才 算是 有 深度 。 从 这 个 意义 上 说 ,只 有 
两 个 隐 层 的 神经 网 络 就 不 能 算是 有 深度 的 结构 ， 因 为 它 并 没有 能 力 分 级 提取 特征 。 


了 解 人 工 神经 网 络 知识 的 读者 可 能 会 有 一 个 疑问 ,具有 一 个 隐 层 的 人 工 神经 网 络 
已 经 非常 强大 了 ， 理 论 上 来 说 ， 只 要 神经 元 足够 多 ， 构 成 一 个 很 “ 宽 ” 的 网 络 ， 它 可 
以 拟 合 任意 的 函数 , 那 为 什么 还 要 更 “ 深 ”? 原因 在 于 : 在 神经 元 数量 相同 的 情况 下 ， 
深层 网 络 结构 具有 更 大 的 容量 , 分 层 组 合 带 来 的 是 指数 级 的 表达 空间 , 能 够 组 合成 更 
多 不 同类 型 的 子 结构 ,这 样 可 以 更 容易 地 学 习 和 表示 各 种 特征 。 并 且 , 隐 层 增加 则 意 
味 着 由 激活 函数 ( activation function ) 带 来 的 非 线性 变换 的 妃 套 层 数 更 多 ， 就 能 构造 
更 复杂 的 映射 关系 。 


现 如 今 ， 深 度 学 习 已 经 在 多 种 应 用 上 取得 了 突破 性 进展 。 卷 积 神经 网 络 
( Convolutional Neural Networks, CNNs ) 是 这 一 波 深度 学 习 浪潮 的 引领 者 。2012 年 
AlexNet 在 ILSVRC 图 像 识别 竞赛 中 所 带 来 的 惊人 表现 ,让 学 术 界 看 到 了 深度 学 习 所 
蕴含 的 巨大 潜力 。 在 随后 的 几 年 中 ， 随 着 GoogLeNet, VGGNets, ResNets 等 模型 的 
提出 ，CNNs 的 识别 准确 率 持续 提高 ， 让 计算 机 拥有 了 超越 人 类 的 图 像 识 别 能 力 。 关 
于 CNNs 的 应 用 将 在 本 书 第 4 章 中 详细 介绍 。 同 时 ,深度 学 习 在 自然 语言 处 理 ( Natural 
Language Processing，NLP ) 方面 同样 取得 了 巨大 的 成 功 , 不 但 有 Siri 这 样 可 以 与 人 
类 正常 交流 的 对 话机 器 和 人， 其 至 能 够 写 诗 、 作 曲 。 本 书 第 5 章 会 介绍 循环 神经 网 络 
(Recurrent Neural Networks，RNNs ) 在 处 理 语音 或 者 文字 等 问题 中 的 应 用 。 


总 结 来 说 , 深度 学 习 是 一 种 机 器 学 习 方 法 , 同时 也 是 目前 最 有 希望 具有 处 理 复 杂 
的 真实 世界 问题 的 能 力 的 人 工 智能 方法 。 深 度 学 习 的 分 层 结构 能 够 从 简单 概念 的 组 合 
中 学 习 到 高 级 抽象 的 特征 表示 , 让 计算 机 真正 具有 理解 世界 的 能 力 。 不 同类 型 人 工 智 
能 系统 的 流程 图 如 图 1-3 所 示 。 


à 6 
ww ai bt. com O0 00000 





SR eS SNS A SS ER eS fe A 








1.2 


1 深度 学 习 简介 T 





基于 规则 的 系 传统 机 器 学 习 RFD 深度 学 习 


图 1-3 不 同类 型 人 工 智能 系统 的 流程 图 。 灰 色 框 表示 具有 从 数据 中 学 习 的 能 力 





深度 学 习 的 趋势 


20 世纪 90 年 代 ,在 卷 积 神经 网 络 应 用 于 文字 识别 之 后 ,深度 学 习 曾经 经 历 一 段 
时 间 的 沉寂 ， 而 2012 年 在 图 像 识 别 领域 的 爆发 式 突破 ， 让 和 人们 意识 到 其 巨大 的 潜力 
和 广阔 的 应 用 前 景 。 现 如 今 , 以 Google, Facebook, Nvidia 等 为 首 的 科技 公司 全 都 重 
兵 押 注 深度 学 习 ， 而 国内 的 百度 、 阿 里 巴巴 、 腾讯 也 紧 随 其 后 ， 让 人 深 深 感觉 到 这 是 
一 个 朝气 莲 勃 的 领域 ， 同 时 也 是 一 个 硝烟 弥漫 的 成 场 。 


很 多 人 会 好 奇 , 人 工 神经 网 络 几 十 年 前 就 已 经 存在 了 , 为 什么 直到 今天 才 认 为 深 
度 学 习 是 一 项 突破 性 的 技术 ? 事实 上 , 在 20 世纪 90 年 代 深度 学 习 就 已 经 有 成 功 的 商 
业 应 用 , 但 是 在 那 时 ,人 们 更 多 会 认为 这 是 一 门 只 有 少数 几 个 专家 才能 掌握 的 艺术 而 
不 是 技术 。 深 度 学 习 的 成 功 ， 依 赖 于 四 项 基本 要 素 : 


海量 的 训练 数据 ; 
非常 灵活 的 模型 ; 
足够 的 运算 能 力 ; 
足够 对 抗 维度 灾难 〈 curse of dimensionality ) 的 先 验 经 验 。 


机 器 学 习 是 要 从 数据 中 学 习 知 识 ， 正 所 谓 “ 巧 妇 难为 无 米 之 炊 "， 即 使 再 厉害 的 
算法 ,也 需要 优质 的 数据 集 支持 。 所 以 在 人 工 智能 几 十 年 的 发 展 过 程 中 , 数据 集 的 种 
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类 和 规模 都 在 逐渐 增长 。 图 1-4 展示 了 一 些 经 典 数据 集 规 模 的 对 比 。 从 中 可 以 看 到 ， 
样本 的 规模 几乎 是 在 以 指数 级 增长 ， 其 中 一 些 著名 的 数据 集 ( 如 ImageNet ) 的 样本 
数量 已 经 达到 了 千 万 级 别 。 原 先 ， 机 器 学 习 的 任务 是 ,要 从 少量 数据 中 学 习 特 定 的 规 
律 ， 然 后 泛 化 到 更 一 般 的 场景 中 , 并 且 要 防止 各 种 欠 拟 合 和 过 拟 合 。 但 随 着 大 数据 时 
代 的 到 来 ， 数据 集 本 身 就 已 经 包含 了 各 种 可 能 出 现 的 情况 , 从 数据 集中 学 习 的 规则 可 
以 直接 应 用 在 现实 场景 中 。 以 2016 年 的 趋势 来 看 ,对 于 有 监督 的 深度 学 习 算 法 来 说 ， 

只 要 每 个 类 别 有 5000 个 样本 , 机 器 就 能 达到 令 人 满意 的 表现 ， 而 若 有 1000 万 以 上 的 
样本 , 机 器 就 能 达到 甚至 超越 人 类 的 水 平 。 在 互联 网 已 经 深入 人 们 生活 每 一 个 角落 的 
今天 ， 数 据 更 是 会 越 来 越 多 ， 各 种 “ 独 角 兽 ” 公司 每 天 产生 的 数据 量 是 PB 级 别 的 。 
当 收 集 数 据 已 经 不 再 是 难题 ， 如 何 更 有 效 地 利用 数据 就 成 为 了 新 的 挑战 。 


Increasing dataset size over time 
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14 在 人 工 智能 学 科 刚 被 确立 的 时 候 ， 研 究 的 数据 仅 在 几 百 条 的 规模 。 到 了 20 世纪 90 年 代 ， 
著名 的 MNIST 手写 数字 数据 集 有 60000 多 张 28x28 分 辨 率 的 黑白 图 片 。 而 到 了 近 些 年 ，ImageNet 
数据 集 超过 了 100 万 张大 尺寸 彩色 照片 


深度 学 习 涉及 大 量 的 科学 计算 。 计 算 机 硬件 的 性 能 提升 也 为 深度 学 习 发 展 推广 提 
供 了 基本 必要 条 件 。 著 名 CPU 厂商 英特尔 (Intel) 的 创始 人 之 一 戈 登 .摩尔 ( Gordon 
Moore) 曾 提出 摩尔 定律 ， 其 内 容 为 : 当 价格 不 变 时 ， 集 成 电路 上 可 容纳 的 元 器 件 的 
数目 ， 约 每 隔 18 ~ 24 个 月 便 会 增加 一 倍 ， 性 能 也 将 提升 一 倍 。 摩 尔 定律 概括 了 20 
世纪 末 一 段 时 间 CPU 的 发 展 速度 。 到 2017 年 ， 家 用 电脑 CPU 计算 频率 已 经 接近 当 
前 技术 的 上 限 。 因 此 ， 除 了 靠 提升 单个 CPU 的 计算 频率 来 提升 计算 速度 外 ， 人 们 还 
想到 使 用 多 核 或 多 CPU 集成 的 方式 来 提升 计算 性 能 。CPU 能 够 快速 处 理 多 种 类 型 的 
计算 , 但 并 不 是 每 种 类 型 的 计算 耗 时 都 相同 的 ( 例如 双 精 度 浮 点 数 乘 、 除 法 和 条 件 判 
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断 语句 )。 因 此 多 CPU 集成 , 同样 受到 频率 同步 和 稳定 性 的 限制 。 我 们 可 以 看 到 , 市 
面 上 好 几 万 元 的 品牌 机 服务 器 的 CPU 核心 往往 是 16~64 个 , 而 主 频 一 般 都 在 3.0GHz 
以 下 。 而 几 千 元 的 PC 主 频 虽然 可 以 达到 3.0Ghz， 而 CPU 核心 一 般 是 2-8 个 。 


考虑 到 深度 学 习 的 特殊 计算 需求 和 CPU 综合 计算 性 能 方面 的 这 些 限制 ， 人 们 考 
虑 使 用 GPU 来 解决 科学 计算 问题 。20 世纪 90 年 代 ，PC 电脑 发 展 初期 GPU 的 主要 
功能 是 用 于 显示 交互 界面 。 其 画面 的 显示 功能 涉及 坐标 点 变换 、 栅 格 化 、 平面 泻 染 等 
大 量 的 浮 点 数 加 、 减 、 乘 、 除 等 计算 操作 。 对 比 来 说 ，CPU 是 面向 通用 计算 的 产品 ， 
而 GPU 则 是 天 生 面向 大 规模 浮 点 数 并 行 计算 的 。 与 CPU HAL, GPU 的 内 置 计算 核 
心 虽然 计算 频率 相对 较 低 ,但 内 置 计算 核 心 数量 更 多 。 以 著名 GPU 厂商 英 伟 达 ( Nvidia ) 
为 例 ， 近 几 年 推出 的 Tesla, Titan X 系列 显卡 处 理 器 数量 都 以 上 百 、 上 千 计 ， 而 计算 
| 主 频 在 1GHz 左右 。 在 GPU 的 帮助 下 ， 神 经 网 络 的 训练 效率 大 幅 提高 。 与 同等 价位 
CPU 相 比 , 速度 提升 了 约 几 十 倍 , 分 析 大 型 的 深度 网 络 结构 的 效率 因此 得 到 了 提升 。 
英 伟 达 公司 Tesla 系列 显卡 与 CPU 芯片 的 计算 能 力 比 较 如 图 1-5 所 示 。 





Nvidia? Tesla * ACCELERATOR PERFORMANCE 
í duas NADA Tesla K30 WDA Teste KID — Cum CPU 
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1.5 Tesla 系列 显卡 与 CPU 芯片 的 算 力 比较 。 在 科学 计算 方面 GPU 显卡 是 CPU 速度 的 数 倍 


随 着 计算 能 力 的 提升 和 更 大 规模 数据 集 的 出 现 , 神经 网 络 模型 不 但 结构 越 来 越 复 
杂 ， 而 且 规模 也 在 不 断 增 大 。 尤其 自从 隐 层 结构 提出 以 来 ,神经 网 络 的 神经 元 数量 每 
24 ERR, WA 1-6 所 示 。 对 于 深度 学 习 来 说 ， 人 类 赋予 其 最 重要 的 一 个 先 验 经 
验 就 是 ; 分 层 组 合 的 表示 方式 更 能 准确 地 描述 我 们 所 在 世界 的 规则 。 因 此 , 深度 学 习 
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随 着 各 种 图 像 识 别 、 语 音 识别 的 纪录 被 不 断 刷 新 ， 深度 学 习 也 被 证 明 是 一 个 极 具 
潜力 的 技术 方向 ， 越 来 越 多 的 研究 学 者 涌 入 这 一 领域 尝试 新 思路 、 新 方法 、 新 的 应 用 
方向 。 在 这 样 的 背景 之 下 ， 构 建 高 效 、 可 靠 、 可 扩 展 的 基础 工具 ， 能 为 这 一 领域 的 发 
展 起 到 极 大 的 推动 作用 。 

TensorFlow 是 Google 推出 的 一 套 深度 学 习 系统 ， 使 用 其 灵活 易 用 的 前 端 语言 可 
以 轻松 地 构建 各 种 复杂 的 算法 模型 ， 后 端 高 效 的 执行 系统 与 分 布 式 架构 保证 了 在 模型 
训练 和 执行 方面 的 高 性 能 。 综 合 来 看 , TensorFlow 是 目前 业界 最 优秀 的 深度 学 习 系 统 
ar 

在 本 章 中 ， 从 系统 需求 、 基 础 概念 、 系统 架构 和 源 代码 几 个 方面 对 TensorFlow 
系统 进行 了 介绍 。 正 所 谓 “ 磨 刀 不 误 砍 柴 工 ”， 在 开始 实战 之 前 先 了 解 一 下 TensorFlow 
内 部 的 设计 原理 和 运行 机 制 ， 相信 可 以 帮助 读者 更 好 地 运用 这 一 强大 的 工具 。 


2.1 TensorFlow 诞生 的 动机 


Google 可 以 说 是 人 工 智能 方面 工业 界 的 领军 者 之 一 。 早 在 2011 年 , 就 由 Google 
传奇 人 物 Jeff Dean, Google 研究 学 者 Greg Corrado, 携手 斯 坦 福 大 学 教授 Andrew Ng 
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共同 创建 了 Google Brain( 谷歌 大 脑 ) 计 划 , E ERRIRE JERKER PAA o 
多 位 专家 的 联合 努力 ， 基 于 Google 已 有 的 云 计 算 基 础 架构 ， 设 计 开 发 了 第 一 代 机 器 
学 习 系统 DistBelief。 DistBelief 继承 了 Google 所 有 分 布 式 系统 的 长 处 , 具有 高 性 能 、 
高 扩展 性 等 特点 。 在 Google 内 部 ， 有 包括 搜索 、 地 图 、 翻 译 等 超过 50 个 团队 使 用 了 
基于 DistBelief 构建 的 深度 神经 网 络 算法 模块 。 


深度 学 习 如 今 发 展 速度 越 来 越 快 , 大 量 新 颖 的 研究 成 果 不 断 涌现 , 能 够 应 用 深度 
学 习 技 术 的 场景 也 越 来 越 多 。 作 为 学 术 研 究 和 工程 产品 的 基础 , 深度 学 习 框架 系统 在 
其 中 起 到 了 巨大 的 促进 作用 。 基 于 在 多 个 项 目 上 研究 应 用 的 经 验 ，Google Brain 团队 
总 结 出 了 对 于 深度 学 习 系统 的 以 下 几 点 核心 需求 。 


要 具有 灵活 的 表达 能 力 ， 能 够 快速 实现 各 种 算法 


随 着 越 来 越 多 的 专家 学 者 加 入 了 深度 学 习 领 域 , 几乎 每 天 都 有 各 种 疯狂 的 新 想法 、 
新 模型 涌现 出 来 。 快速 实现 算法 、 快 速 验证 结果 , 成 为 了 主要 的 需求 之 一 。 在 曾经 的 
MATLAB 时 代 ， 算 法 的 实现 至 少 需要 有 经 验 的 专家 花费 几 天 的 时 间 ， 即 使 在 Caffe 
等 框架 出 现 之 后 ， 新 模型 ( 如 RNN 等 ) 的 扩展 仍然 是 一 件 困难 的 事情 。 因 此 ， 对 神 
经 网 络 进行 合理 的 抽象 封装 ,并 设计 出 灵活 的 编程 接口 ,支持 各 种 模型 的 组 合 与 扩展 ， 
是 深度 学 习 系 统 的 首要 目标 。 

高 执行 性 能 ， 具 备 分 布 式 扩 展 性 

由 于 机 器 学 习 算法 执行 的 计算 量 通常 都 比较 大 , 所 以 程序 实现 必须 经 过 充分 的 优 
化 ,减少 不 必要 的 开销 ， 以 降低 执行 时 间 。 因 此 ， 对 于 深度 学 习 框架 系统 来 说 ， 执 行 
性 能 是 非常 重要 的 基础 评价 指标 。 不 仅 如 此 , 在 服务 器 集群 大 行 其 道 的 今天 , 若 仅 依 
靠 单机 运算 是 远 远 不 够 的 , 而 利用 分 布 式 技术 进行 并 行 计算 可 以 大 大 提高 计算 吞吐 量 ， 
进一步 提升 效率 ， 所 以 支持 分 布 式 扩展 对 于 深度 学 习 系统 来 说 也 是 非常 重要 的 。 

跨 平台 可 移植 性 

跨 平台 已 经 不 是 什么 新 鲜 的 概念 了 ,桌面 应 用 会 跨 Windows 和 MacOS 系统 , F 
机 APP 要 同时 支持 iOS 和 Android 平台 。 机 器 学 习 算 法 要 想 应 用 于 生产 生活 场景 ， 


也 需要 适应 多 种 平台 载体 。 随 着 深度 学 习 技术 日 趋 成 熟 , 应 用 会 越 来 越 贴近 人 们 的 生 
活 ， 将 模型 运行 在 手机 ， 甚 至 是 手表 等 随身 设备 上 ， 应 该 会 成 为 主要 的 趋势 。 因 此 ， 
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由 深度 学 习 系统 提供 跨 平台 能 力 ， 既 能 让 模型 在 GPU 服务 器 上 高 效 训练 ， 又 能 快速 
部 署 在 各 种 生产 环境 中 ， 可 以 为 实用 带 来 极 大 的 便利 。 


实验 可 复 现 性 


如 今 是 讲究 开放 和 合作 的 时 代 , 交流 与 研究 同等 重要 。 大 部 分 机 器 学 习 算法 都 是 
基于 概率 论 发 展 起 来 的 科学 , 因此 很 多 的 实验 都 具有 一定 程度 的 随机 性 , 这 就 为 实验 
的 精准 复 现 带 来 了 难度 。 深度 学 习 框 架 系 统 可 以 从 底层 提供 解决 这 一 问题 的 工具 , 让 
实验 不 再 是 一 次 性 的 结果 ， 而 是 可 重 现 、 可 共享 的 资料 。 这 对 促进 研究 的 发 展 有 着 极 
其 重要 的 作用 。 


支持 快速 产品 化 ， 模 型 可 随时 部 署 


随 着 深度 学 习 的 快速 发 展 , 一 些 模型 和 技术 已 经 具备 了 处 理 真实 世界 问题 的 能 力 ， 
例如 识别 各 种 文字 、 识 别 语音 、 识 别 图 像 ， 等 等 。 对 于 以 往 的 一 些 技术 而 言 ,研究 和 
应 用 之 间 往 往 存在 较 大 的 间隔 , 从 学 术 界 到 工业 界 有 一 个 转化 的 过 程 。 但 深度 学 习 不 
同 , 在 问题 定义 之 初 可 能 就 已 经 是 一 个 实际 的 具体 问题 , 只 有 很 少 的 抽象 成 分 , 所 以 
往往 模型 只 要 一 训练 好 ,就 可 以 立刻 投入 到 生产 系统 中 使 用 。 因 此 ,深度 学 习 系 统 应 
该 支持 模型 在 训练 和 应 用 两 方面 灵活 切换 ， 随 时 将 研究 成 果 集成 到 产品 中 。 


虽然 第 一 代 深 度 学 习 系统 DistBelief 已 经 拥有 很 好 的 扩展 性 ， 但 在 灵活 性 方面 的 
不 足 田 ， 使 得 Google Brain 团队 有 动力 开发 第 二 代 系 统 ， 即 TensorFlow。 它 对 于 机 器 
学 习 应 用 来 说 就 如 同 Linux, iOS 等 操作 系统 一 样 ， 一 方面 为 用 户 构建 上 层 应 用 提供 
接口 , 让 用 户 以 此 为 平台 , 开发 出 各 种 各 样 的 应 用 产品 ， 另 一 方面 管理 和 控制 底层 的 
计算 机 硬件 和 软件 资源 , 以 提高 资源 利用 率 , 降 低 硬 件 差异 等 问题 所 带 来 的 研发 成 本 。 


2.2 TensorFlow 系统 简介 


深度 学 习 的 研究 始终 都 是 为 了 解决 现实 世界 中 存在 的 问题 ,所 以 在 学 术 界 不 停 探 
索 新 模型 .新 方法 的 同时 ,工业 界 也 不 断 推出 各 种 工具 框架 ,促进 研究 和 应 用 的 发 展 。 
Google 经 过 长 期 的 研究 和 尝试 ， 在 实践 的 基础 上 推出 了 目前 最 优秀 深度 学 习 框 架 系 
统 之 一 一 一 TensorFlow， 其 项 目 logo 如 图 2-1 Ara. 
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图 2-1 TensorFlow 项 目 logo 


在 TensorFlow 的 官方 介绍 中 给 出 的 定义 是 : TensorFlow 是 一 个 基于 数据 流 图 
( Data flow Graph ) 的 数值 计算 开源 软件 库 ， 其 灵活 的 架构 设计 可 以 让 用 户 以 单机 或 
分 布 式 的 方式 将 计算 部 署 在 台式 机 、 服 务 器 ， 甚至 是 手机 上 。 通 过 这 个 描述 可 以 看 出 ， 
首先 , TensorFlow 面向 的 是 数值 计算 ， 虽然 起 初 是 作为 深度 神经 网 络 方向 研究 的 工具 ， 
但 它 在 通用 计算 方面 的 应 用 范围 也 不 容 小 帆 。 其 次 ,数据 流 图 (或 称 为 计算 图 ) 是 
TensorFlow 中 对 于 计算 过 程 的 抽象 表示 。 数据 流 图 是 有 向 图 ， 图 中 的 点 表示 各 种 数学 
计算 操作 ， 边 表示 操作 与 操作 之 间 传递 的 高 维 数组 数据 ， FRH tensoro MI, MHS 
种 设备 的 灵活 部 署 是 TensorFlow 最 大 的 优势 ， 大 至 分 布 式 服务 器 集群 ， 小 到 手机 等 
移动 设备 ， 都 能 运行 同样 的 机 器 学 习 算法 模型 。 
TensorFlow 作为 一 个 机 器 学 习 框架 系统 ， 主要 解决 了 机 器 学 习 方 面 的 几 个 核心 
问题 。 
首先 ， 使 用 TensorFlow 可 以 用 非常 简洁 的 语言 实现 各 种 复杂 的 算法 模型 ， 将 研 
究 从 极为 消耗 精力 的 编码 和 调试 工作 中 解放 出 来 。 相 比 早期 研究 所 用 的 MATLAB, 
使 用 TensorFlow 实现 的 代码 行 数 只 是 之 前 的 一 半 甚 至 更 少 。 代码 少 就 意味 着 更 不 容 
易 出 错 ,也 更 容易 排 错 ( debug ), 仅 这 一 项 就 可 以 在 实际 开发 中 可 以 节省 大 量 的 时 间 。 
其 次 ，TensorFlow 的 内 核 执行 系统 使 用 C++ 编写 ， 因此 保持 了 非常 高 的 执行 效 
R, 在 同类 系统 的 横向 评测 中 ，TensorFlow 始终 保持 在 领先 地 位 , 并 且 首 先 开源 了 完 
整 的 分 布 式 的 加 速 方案 , 实验 中 50 个 设备 的 并 行 化 方案 能 够 达到 30 倍 以 上 的 加 速效 
果 ， 在 执行 效率 上 有 巨大 的 提高 。 
再 次 , TensorFlow 优秀 的 分 层 架 构 设计 使 得 模型 可 以 非常 方便 地 运行 在 异 构 设 备 
环境 上 。TensorFlow 采用 前 端 编程 语言 与 后 端 执行 引擎 分 离 、 执行 引擎 又 与 面向 硬件 


15 4 
ww ai bbt. com 0000000 


a 


Ene 7 


深度 学 习 原理 与 TensorFlow 实践 


的 计算 实现 分 离 的 架构 ， 充 分 实践 了 “高 内 聚 、 低 耦合 ”的 设计 思想 。 可 以 非常 方便 
在 底层 增加 算 子 , 甚至 新 增 对 特殊 硬件 设备 的 支持 , 而 在 上 层 则 可 以 不 关心 硬件 运行 
的 特殊 机 理 ， 专 心 在 算法 和 应 用 上 取得 突破 。 


最 后 ，TensorFlow 不 仅 包含 TensorBoard 等 优秀 的 配套 辅助 工具 ， 第 三 方 社区 也 
贡献 了 诸如 TFLeam 等 众多 好 用 的 辅助 项 目 , 不 仅 使 代码 更 简洁 , 也 让 数据 处 理工 作 
变 得 轻松 容易 。 


2.3 TensorFlow 基础 概念 


2.3.1 计算 图 


TensorFlow 是 一 个 基于 计算 图 ( Computational Graph, 也 叫 作 数 据 流 图 Data flow 
Graph ) 的 数值 计算 系统 。 计 算 图 是 一 个 有 向 图 ， 图 中 的 节点 代表 数学 计算 操作 的 算 
F (operations， 简 称 为 op )， 节 点 之 间 连 接 的 边 代表 参与 计算 的 高 维 数组 数据 ， 叫 做 
tensor。 计 算 图 的 执行 可 以 看 作 数 据 tensor 按照 图 的 拓扑 顺序 ， 从 输入 节点 逐步 流 过 
所 有 中 间 节 点 ， 最 后 流 到 输出 节点 的 过 程 ，TensorFlow 的 名 字 由 此 而 来 。 基 于 
TensorFlow 的 计算 图 如 图 2-2 所 示 。 


tensor (SKE) 这 一 术语 起 源 于 力学 ， 在 物理 和 数学 中 都 有 重要 的 作用 。 在 
TensorFlow 系统 中 ，tensor 代表 多 维 数组 ( multi dimensional data array )， 对 应 神经 网 
络 计算 中 的 高 维 矩 阵 。tensor 可 以 有 任意 维度 ， 每 个 维度 也 可 以 有 任意 长 度 。 特 别 来 
说 , 一 维 tensor 就 是 向 量 , 是 普通 的 一 维 数组 ;二 维 tensor 是 矩阵 。TensorFlow 中 一 
般 使 用 4 维 tensor 表示 一 个 mini-batch 的 图 片 ， 四 个 维度 分 别 是 批 大 小 、 像 素 行 数 、 
像素 列 数 、 通 道 数 ， 即 [batch, height width, channels]。tensor 中 的 元 素 可 以 是 任意 内 
置 类 型 ， 常 用 的 有 : int32, int64, float32, 、float64， 等 等 。 对 于 神经 网 络 来 说 ， 单 精 
EE float32 应 该 是 最 常用 的 数据 类 型 。 
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| 图 2-2 基于 TensorFlow 的 计算 图 示意 


算 子 op 是 参与 计算 的 基本 单位 ， 每 个 算 子 都 对 应 一 种 数学 运算 ， 比 如 : 矩阵 加 
法 、 矩 阵 乘法 等 。 算 子 接收 0 个 或 多 个 tensor 作为 输入 ,进行 一 定 的 计算 , 输出 0 个 
或 多 个 tensor 的 结果 。 在 实现 中 ,一些 算 子 可 以 带 有 特定 的 属性 ， 比 如 说 矩阵 运算 算 
| 子 带 有 数据 类 型 dtype 属性 ,设置 数 据 关 型 可 以 实现 计算 的 多 态 ， 既 可 以 完成 in2 
| 类 型 数据 的 运算 又 可 以 进行 float64 类 型 的 运算 。TensorFlow ABT SHAT, 表 2-1 
列 出 了 部 分 类 别 的 算 子 示例 。 








表 2.1 TensorFlow 集成 的 算 子 示例 


数值 计算 操作 Add, Sub, Mul, Div, Less, Equal, ... 
Concat, Slice, Split, Constant, Rank, Shape, Shuffle, ... 
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续 表 
类 Bil 算 子 示例 
矩阵 计算 操作 MatMul, MatrixInverse, MatrixDeterminant, ... 
状态 操作 Variable, Assign, AssignAdd, ... 
神经 网 络 相关 操作 SoftMax, Sigmoid, ReLU, Convolution2D, MaxPool, ... 
存档 操作 Save, Restore 
队列 和 同步 操作 Enqueue, Dequeue, MutexAcquire, MutexRelease, ... 
控制 流 操 作 Merge, Switch, Enter, Leave, Nextlteratio 


与 其 他 一 些 使 用 数据 流 作为 计算 抽象 的 系统 ( 如 Spark, Tez 等 ) 有 所 不 同 的 是 ， 
TensorFlow 的 计算 图 对 有 向 图 概念 进行 了 一 些 扩展 , 加 入 了 图 的 状态 表示 。 对 于 神经 
网 络 等 算法 来 说 , 有 向 图 可 以 表示 模型 的 结构 , 但 图 中 边 的 权 值 参数 并 不 是 固定 不 变 
的 ， 而 是 通过 训练 过 程 不 断 调整 更 新 的 。 所 谓 图 的 状态 ， 就 是 图 中 所 有 参数 的 组 合 。 
在 TensorFlow 中 ， 以 变量 ( Variable) 来 存储 参数 值 。 变 量 可 以 与 tensor 一 样 参与 各 
种 运算 , 区别 在 于 tensor 的 值 在 每 次 计算 图 执行 完成 之 后 立即 被 丢弃 , 而 变量 的 值 在 
通过 反 向 传播 计算 更 新 后 会 保留 下 来 ， 代 入 到 下 一 轮训 练 迭 代 。 


TensorFlow 以 计算 图 作为 抽象 , 为 计算 的 表示 提供 了 极 大 的 空间 和 自由 度 , 保证 
了 各 种 算法 实现 的 灵活 性 。 


2.8. Session 会 话 


Session 是 驱动 TensorFlow 系统 执行 计算 交互 的 入 口 。Session 负责 完成 多 计算 设 
备 或 集群 分 布 式 的 节点 布置 和 数据 传输 节点 的 添加 ,并 负责 将 子 图 分 配给 相应 的 执行 
器 单元 来 运行 。 


从 使 用 角度 说 ,典型 的 用 法 是 客户 端 通过 CreateSession 接口 5 master 建立 连接 ， 
并 在 初始 会 话 的 过 程 中 传 入 计算 图 。 对 于 Python 接口 , 计算 图 可 以 在 Session 创建 之 
前 构造 完成 ， 并 在 tfSession 对 象 初始 化 时 载 入 到 后 端 执 行 引 擎 。Session 还 提供 了 
Extend 的 接口 ， 可 以 在 会 话 中 修改 计算 图 。 

触发 计算 图 的 执行 通过 Run 接口 , 也 就 是 Python 的 tfSession.run0 方 法 。 通过 这 


个 接口 ， 可 以 将 数据 代入 模型 ， 执 行 计 算 , 并 得 到 执行 结果 。 训 练 过程 由 客户 端的 循 
环 来 控制 ， 一 般 情 况 下 ， 都 会 在 一 个 会 话 中 通过 Run 接口 执行 成 和 干 上 万 次 的 计算 。 
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| Session 管理 了 运行 时 的 一 系列 资源 的 申请 和 分 配 ， 所 以 在 计算 完成 后 ， 必 须要 
| 关闭 Session 以 释放 资源 。 


| TensorFlow 的 Python 接口 典型 示例 如 下 : 

| import tensorflow as tf 

| b = tf.Variable(tf.zeros([100])) # 100 维 向 量 ， 初 始 化 为 全 0 
W = tf.Variable(tf.random ([784,100],-1,1)) # 784x100 JERE, 随机 初 
f 始 化 的 变量 

1 x = tf.placeholder (name-"x") # 输入 占 位 符 

| relu = tf.nn.relu(tf.matmul(W, x) + b) # Relu (Wx+b) 

| Gm Perc # 代价 函数 


s = tf.Session() 
for step in xrange(0, 10): 
input = ...construct 100-D input array ...# 100 维 的 输入 数据 
result = s.run(C, feed dict-(x: input}) f 代入 x=input, 
# 获取 代价 函数 的 计算 结 


print step, result 


2.4 ”系统 架构 


TensorFlow 是 拥有 “client > master -了 worker” 架 构 的 分 布 式 系统 。 在 一 般 的 
执行 流程 中 ,客户 端 通过 会 话 好 Session 接口 与 master 进行 通信 ， 并 向 master 提交 触 
发 执行 的 请 求 ，master 将 执行 任务 分 配 到 一 个 或 多 个 worker 进程 上 ， 执 行 的 结果 通 
过 master 返回 给 客户 端 。 其 中 ，worker 是 最 终 负责 执行 计算 的 角色 ， 每 一 个 worker 
进程 都 会 管理 和 使 用 计算 机 上 的 计算 硬件 设备 资源 ， 包 括 一 块 或 多 块 CPU 和 GPU, 
来 处 理 计算 子 图 ( subgraph ) 的 运算 过 程 。 


j 计算 设备 ( device ) 是 TensorFlow 系统 中 对 计算 资源 定义 的 基础 单位 ,由 worker 
i 进程 管理 和 使 用 。TensorFlow 官方 支持 CPU 和 GPU， 即 每 个 CPU 核 或 每 块 GPU 都 
是 一 个 计算 设备 。 每 个 抽象 的 计算 设备 要 负责 该 硬件 芯片 上 的 内 存 分 配 与 释放 , 并 且 
; 执行 上 层 应 用 所 分 配 的 计算 。 在 系统 中 , 每 个 计算 设备 都 被 分 配 了 标识 名 称 ， 该 名 称 
| ”由 三 部 分 组 成 : worker 所 属 的 任务 名 、 计 算 设备 的 类 型 、 硬 件 在 worker 中 的 编号 。 
| 例如 ，“/job:localhost/device:cpu:0” 代 表单 机 worker 中 第 一 个 CPU 芯片 设备 ， 
* fjob:worker/task: 17/device:gpu:3" 代表 分 布 式 环境 下 第 17 个 task 所 在 机 器 的 第 三 块 
GPU 显卡 。 有 了 标识 名 称 ， 上 层 应 用 可 以 显 式 地 手动 指定 计算 设备 。 虽 然 目 前 官方 
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仅 支 持 CPU 和 GPU 两 类 设备 , 若 想 添加 新 的 硬件 设备 也 并 不 困难 , TensorFlow 的 实 
型 中 将 算 子 的 定义 和 面向 硬件 的 代码 实现 进行 了 分 离 , 可 以 单独 开发 所 有 算 子 在 新 设 
备 上 执行 代码 ， 并 通过 注册 机 制 注入 系统 ， 即 可 实现 计算 设备 的 扩展 。 


TensorFlow 是 一 个 可 以 灵活 横向 扩展 的 架构 。 在 单机 模式 下 , 一般 client, master 
和 worker 都 在 同一 个 进程 之 中 启动 ，worker 进程 会 管理 本 机 上 所 有 的 计算 设备 。 而 
在 分 布 式 环境 下 ，client、master 和 worker 之 间 会 通过 远程 调用 的 方式 连接 在 一 起 ， 
每 个 worker 各 自 独立 管理 执行 机 上 的 计算 设备 。TensorFlow 的 单机 与 分 布 式 架构 如 
2-3 所 示 。 


single process 


master 
(cists) e Gas 
run 
execute 
subgraph 


‘worker worker worker 
process 1 process 2 process 3 
Bes EDE amas 
Enan) Glam) Gam 


2-3 TensorFlow 的 单机 与 分 布 式 架构 


从 计算 图 的 执行 角度 来 说 , 当 只 有 一 个 执行 计算 的 硬件 设备 时 , 计算 图 会 按照 节 
点 的 依赖 关系 顺序 执行 。 


在 单机 多 设备 模式 下 , 为 了 提高 计算 性 能 , 会 将 计算 图 分 解 成 若干 个 子 图 , 每 个 
子 图 被 分 配 到 不 同 的 设备 上 执行 。 此 时 主要 会 面临 两 个 问题 , 一 个 是 要 决定 每 一 个 计 
算 节 点 安置 在 哪个 硬件 设备 上 执行 ， 二 是 要 在 不 同 设备 之 间 构建 数据 交互 的 通道 。 
TensorFlow 系统 要 做 的 是 要 将 计算 图 中 的 每 一 个 节点 与 硬件 的 计算 设备 做 一 个 映射 ， 
将 算 子 的 执行 安置 在 合适 的 计算 硬件 设备 上 。 这 个 安置 过 程 由 布置 算法 (placement 
algorithm ) 决定 。 基 础 布置 算法 会 模拟 计算 图 的 执行 ， 针 对 每 一 个 算 子 节点 ， 系 统 利 
用 代价 模型 推算 该 操作 在 所 有 可 用 设备 上 的 预计 耗 时 ,使 用 贪心 算法 选 出 耗 时 最 小 的 
设备 。 在 计算 代价 时 , 会 考虑 设备 之 间 数 据 复制 的 问题 , 数据 在 设备 的 内 存 间 复制 传 
输 往往 会 有 比较 大 的 时 间 消 耗 。 


当 计算 图 的 算 子 被 布 置 到 不 同 设备 上 时 , 系统 会 自动 在 跨 设备 的 操作 之 间 加 入 数 
据 传 输 算 子 ， 如 图 2-4 所 示 ， 系 统 会 成 对 添加 发 送 ( send ) 和 接收 (recv ) 算 子 。 此 
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时 , 每 个 设备 实际 只 负责 子 图 的 执行 , 子 图 执行 所 得 的 结果 tensor 会 通过 发 送 和 接收 


. 数据 的 算 子 在 设备 之 间 复 制 传输 。 添 加 通信 节点 的 工作 由 系统 自动 完成 , 对 于 上 层 应 


用 来 说 ,编写 的 程序 与 单机 版 本 并 无 二 致 ， 可 以 说 极 大 简化 了 分 布 式 的 开发 工作 。 更 
加 值得 一 提 的 是 , 在 程序 实现 中 , 数据 传输 是 根据 需要 在 发 送 和 接收 节点 之 间 自 动 甬 
发 的 ， 完 全 是 一 种 去 中 心 化 的 组 织 方式 ,无 需 master 在 其 中 参与 调度 ， 这 可 以 让 系 
统 的 横向 扩展 性 得 到 极 大 提高 。 





2-4 跨 设备 布置 算 子 时 ，TensorFlow 会 自动 添加 发 送 和 接收 数据 的 节点 


ERE RABE, 执行 方式 与 单机 多 设备 模式 比较 类 似 , 区 别 仅 为 节点 通信 
是 跨 机 器 的 网 络 通信 。 对 于 集群 来 说 , 最 大 的 问题 是 容错 机 制 。TensorFlow 有 两 种 检 
测 错误 的 机 制 ， 一 种 是 基于 发 送 和 接收 算 子 之 间 传输 的 错误 信息 ， 另 一 种 是 master 


i pea 


进程 的 轮 询 检查 。 当 发 现 错误 后 ， 系 统 会 终止 当前 迭代 ， 从 存档 状态 重新 运行 。 


TensorFlow 的 分 布 式 架构 , 既 保证 了 单机 环境 下 的 易 用 性 , 又 让 用 户 在 有 需要 时 
可 以 非常 容易 地 扩展 计算 规模 ， 利 用 集群 优势 提高 训练 效率 ， 充 分 体现 了 Google 工 
程 师 们 杰出 的 工程 架构 能 力 。 


2.5 ”源码 结构 


TensorFlow 的 系统 实现 采用 了 分 层 的 结构 ,核心 是 由 C++ 语言 实现 的 后 端 执行 系 
统 , 前 端 则 提供 了 基于 多 种 语言 的 编程 接口 。 在 保证 了 执行 性 能 的 同时 ， 又 降低 了 学 
习 门 槛 和 应 用 集成 的 代价 。 


TensorFlow 系统 架构 的 示意 图 如 2-5 所 示 。 
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图 2-5 TensorFlow 系统 架构 示意 图 


2.5.1 后 端 执 行 引擎 


TensorFlow 的 后 端 执行 引擎 是 整个 系统 的 核心 ， 对 应 源 代码 中 的 tensorflow/core 
H3, E TensorFlow 系统 中 ， 计 算 执行 部 分 的 逻辑 都 在 此 部 分 实现 。 执 行 系统 的 实 
现 借鉴 了 NumPy 等 高 性 能 数值 计算 库 的 方案 ,使 用 C++ 编写 ,以 充分 保证 执行 性 能 。 


从 代码 来 分 析 ， 执 行 引擎 主要 由 以 下 几 个 模块 组 成 。 
1. 系统 框架 (对 应 core/framework BF) 


框架 主要 实现 TensorFlow 系统 的 基本 运行 方式 。 其 中 定义 了 计算 图 、tensor、 算 
子 等 数据 结构 ， 还 包括 数据 类 型 、 资 源 管理 器 、 消息 通信 机 制 等 基础 设施 。 


在 算 子 的 实现 中 , TensorFlow 使 用 了 注册 机 制 。 框架 并 不 关心 系统 都 实现 了 哪些 
算 子 ,而 是 在 运行 时 按 注册 名 称 查 找 算 子 的 实现 。 这 种 方式 对 工程 扩展 是 非常 有 益 的 ， 
算 子 的 实现 内 聚 性 高 ， 不 用 担心 在 扩展 新 的 计算 类 型 时 对 系统 造成 意 想不到 的 破坏 。 


2. 计算 图 (对 应 core/graph 目录 ) 


计算 图 模块 主要 实现 了 计算 图 模型 的 数据 结构 ， 包 括 节点 Node、 边 Edge 和 图 
Graph 等 类 的 定义 ， 以 及 图 的 遍历 算法 和 在 布置 节点 时 所 需 的 代价 模型 。 


3. 算 子 声明 与 内 核实 现 〈 对 应 core/ops 和 core/kernels 目录 ) 


TensorFlow 作为 一 个 数值 计算 系统 , 包含 了 种 类 丰富 的 数学 计算 算 子 。 算 子 的 声 
明和 实现 是 分 离 的 。 注 册 声 明 使 用 C++ 的 宏 REGISTER. OP, 其 中 定义 了 算 子 的 名 称 、 
输入 输出 、 算 子 相关 参数 以 及 说 明文 档 。 内 置 算 子 的 注册 声明 在 ops 目录 中 。 


计算 操作 在 硬件 上 的 具体 代码 实现 被 称 为 内 核 ( kernel )。 这 个 实现 与 计算 平台 相 
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关 ， 也 就 是 说 ， 同 样 的 计算 操作 在 CPU 和 GPU 上 的 运行 代码 是 不 同 的 。 对 于 CPU 
计算 而 言 , 数值 计算 会 基于 Eigen JE. Eigen 库 是 一 个 C++ 编写 的 模板 库 , 支持 整数 、 
浮 点 数 、 复数 , 使 用 模板 编程 , 可 以 为 特殊 的 数据 结构 提供 矩阵 操作 。 而 对 于 GPU, 
计算 会 基于 Nvidia 的 CUDA 库 来 完成 。CUDA 是 计算 统一 设备 架构 ( Compute Unified 
Device Architecture) 的 简称 ， 它 是 一 个 并 行 编程 平台 ， 提 供 了 基于 GPU 加 速 的 编程 
API. 


4. 前 后 端 交 互 接口 〈 对 应 core/protobuf 目录 ) 


TensorFlow 前 后 端 交互 接口 使 用 protocol buffer 协议 定义 。 在 源码 目录 中 ， 最 主 
要 的 是 master. service.proto 和 worker. service.proto 两 个 文件 ， 分 别 声明 了 master 和 
worker 服务 的 接口 。 这 部 分 的 定义 符合 了 前 文 介绍 的 分 布 式 架构 。 

除了 服务 API 定义 以 外 ,其 他 proto 文件 中 定义 了 各 种 必要 的 数据 结构 ， 比 如 有 
master 和 worker 服务 接口 的 请 求 数据 结构 及 响应 数据 结构 ， 有 执行 时 设置 的 
GPUOptions 和 GraphOptions 等 配置 的 参数 结构 , 还 有 用 于 存档 模型 的 MetaGraphDef 
等 o 

5， 运 行 时 〈 对 应 core/common runtime 和 core/distributed runtime 目录 ) 

运行 时 模块 负责 管理 程序 执行 时 所 需要 的 资源 ,其 中 包括 对 设备 device 的 定义 、 
内 存 分 配 BFC( best-fit with coalescing ) 算 法 , 以 及 计算 图 执行 器 和 执行 状态 收集 器 。 
此 外 ， 运 行 时 模块 还 包含 了 节点 布置 的 SimplePlacer 算法 的 实现 。 


在 分 布 式 运行 时 模块 中 ， 主 要 实现 了 master 和 worker 两 个 服务 ， 以 及 执行 调度 
器 。 


6. 操作 系统 平台 〈 对 应 core/platform AR) 


该 模块 主要 的 作用 是 隔离 不 同 的 底层 操作 系统 。 由 于 在 Linux , Windows, Android, 
iOS, LZ Google 内 部 的 操作 系统 上 ,底层 的 接口 各 不 相同 ,需要 引用 的 库 也 不 相同 ， 
所 以 先 对 底层 操作 进行 封装 ， 可 以 降低 跨 平台 运行 的 开发 成 本 。 

7. TFRecord 数据 的 格式 定义 类 Example 〈 对 应 core/example 目录 ) 

Example 类 是 在 使 用 TFRecord 格式 数据 时 必须 用 到 的 数据 格式 声明 方法 。 关 于 
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TFRecord 格式 ， 将 在 第 3 章 介绍 。 
2.5.2 ”前 端 语 言 接口 


TensorFlow 目前 已 经 支持 了 C/C, Python, Java, Go 等 多 种 前 端 语言 的 接口 。 
前 端 接口 最 主要 的 作用 是 利用 宿主 语言 的 优势 对 client 进行 封 装 ， 使 得 系统 更 加 易 用 。 


以 Python 前 端 为 例 ， 在 计算 图 的 构建 方面 ， 使 用 了 符号 式 编程 ( symbolic 
programming ) 的 定义 方式 ， 即 在 计算 图 的 构建 阶段 ， 命令 的 执行 并 不 会 真正 进行 数 
学 运算 , 而 是 仅 完成 计算 节点 的 声明 。 这 与 一 般 的 命令 式 编程 ， 即 每 执行 一 条 语句 就 
能 得 到 相应 的 计算 输出 , 在 使 用 上 存在 一 定 差别 , 在 实现 一 些 复杂 的 代价 函数 时 需要 
注意 转换 思路 。 


TensorFlow 系统 的 核心 是 计算 ， 也 提供 了 多 达 数 百 种 的 算 子 。 对 于 工 子 的 接 入 ， 
如 果 依 靠 人 工 逐 个 建立 前 后 端 wrapper， 工 作 量 会 是 非常 巨大 的 ， 而 且 针 对 不 同 语言 
也 需要 重复 实现 几乎 相同 的 逻辑 , 效率 比较 低 。 为 此 ，TensorFlow 的 代码 中 充分 采用 
了 代码 生成 技术 ， 对 于 Python 语言 版 本 ， 前 后 端 使 用 swig 生成 的 代码 相连 接 ，Go 
语言 版 本 则 是 实现 了 一 个 代码 生成 器 ， 在 编译 期 间 生成 所 需要 的 代码 。 


2.6 小 结 


TensorFlow É 2015 年 11 月 开源 以 来 一 直 受 到 业界 热烈 的 追捧 , 是 GitHub 上 机 
器 学 习 门 类 中 最 受 关注 的 项 目 。 截至 2016 FER, 已 经 获得 超过 4 万 个 Star, 被 fork 
了 超过 2 万 次 。 


TensorFlow 作为 目前 深度 学 习 领 域 最 优秀 的 项 目 之 一 , 在 设计 理念 上 , 充分 吸收 
了 Google 在 众多 项 目 上 的 实践 经 验 ， 拥 有 合理 的 抽象 表示 ; 在 工程 上 ，Google 优秀 
的 工程 师 和 开源 社区 共同 保证 了 系统 实现 的 高 质量 与 极 强 的 可 扩展 性 。 这 都 为 深度 学 
习 领 域 的 研究 和 应 用 实践 铺 平 了 道路 。 


相信 在 业界 共同 的 努力 下 ，TensorFlow 这 样 一 个 重量 级 项 目 必 将 长 时 间 持 续 发 
展 下 去 。 
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Hello TensorFlow 


TensorFlow 是 一 套 深 度 学 习 开源 软件 库 。 从 实现 上 来 说 , 它 的 计算 核心 是 基于 高 
性 能 C/C++ 实现 的 ， 而 外 部 封装 使 用 的 则 是 易 用 的 Python 语言 。 这 样 的 设计 思路 不 
仅 保证 了 软件 库 函数 的 性 能 ， 还 降低 了 使 用 的 难度 。 简 单 来 说 ， 使 用 TensorFlow 就 
是 使 用 Python 软件 库 编写 深度 学 习 程序 。 因 此 ， 在 介绍 TensorFlow 使 用 的 同时 ， 本 
章 还 会 概括 一 些 关 于 Python 程序 的 相关 内 容 。 


本 章 首先 介绍 了 开发 之 前 的 环境 准备 工作 ， 包 括 TensorFlow 的 安装 注意 事项 和 
一 些 常用 的 辅助 函数 库 。 随 后 通过 解决 泰坦 尼克 号 幸存 者 预测 这 样 一 个 典型 的 分 类 问 
题 ， 使 用 TensorFlow 实现 标准 的 神经 网 络 分 类 器 。 通 过 这 个 例子 介绍 了 TensorFlow 
提供 的 强大 功能 ， 并 进一步 概括 了 深度 学 习 相关 的 优化 技巧 。 


3.1 “环境 准备 


在 看 完 前 面 的 各 种 介绍 之 后 , 相信 各 位 读者 一 定 都 迫不及待 地 想 要 开始 开发 训练 
自己 的 模型 了 ! 但 是 还 请 稍 安 勿 躁 ， 第 一 步 先 来 准备 好 开发 运行 环境 。 


在 操作 系统 方面 ，TensorFlow 主要 支持 UNIX 内 核 的 操作 系统 ， 对 于 Windows 
系统 的 支持 并 不 全 面 。 这 对 于 资深 Windows 用 户 来 说 并 不 是 个 好 消息 。 虽 然 可 以 用 
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虚拟 机 或 者 Docker 之 类 的 虚拟 化 方法 运行 ， 但 是 且 不 说 存在 比较 严重 的 性 能 损失 ， 
运行 起 来 仍 可 能 存在 各 种 小 问题 。 所 以 ，Mac OS 或 者 Linux 系统 是 安装 TensorFlow 
的 基础 必要 条 件 '。 
从 开发 语言 方面 讲 ,TensorFlow 的 Python 接口 是 功能 最 全 且 最 简单 的 调用 方式 。 
而 C/C++ 接口 虽然 运行 效率 更 高 ， 但 毕竟 编 写 和 调试 的 门槛 略 高 。TensorFlow 对 
Python 2 2 和 了 Python 3 都 有 非常 全 面 的 支持 ,所 以 对 于 Python 的 版 本 没有 特别 的 要 求 ， 
可 以 自由 选择 。 本 书 主要 以 Python 2.7 版 本 为 主 。 
在 硬件 方面 , 作为 需要 大 量 计 算 的 深度 学 习 程 序 ， 非常 需要 有 强大 计算 性 能 的 底 
层 硬件 给 予 支持 .GPU 显卡 是 目 前 执行 高 精度 浮 点 型 计算 性 能 最 强 的 设备 ,所 以 GPU 
服务 器 是 深度 学 习 研 究 中 不 可 或 缺 的 部 分 。 理想 情况 下 ， 可 以 在 单机 环境 中 用 小 规模 
数据 完成 代码 调试 ， 调 试 通过 以 后 ， 在 高 性 能 的 GPU 服务 器 (或 服务 器 集群 ) 上 使 
用 大 数据 对 模型 进行 训练 。TensorFlow 目前 支持 Nvidia 出 品 的 多 款 显卡 ， 只 要 支持 
CUDA 7.0 以 上 驱动 即 可 ， 可 根据 实际 需求 配备 。 








3.1.1 Mac OS 安装 


在 Mac OS 系统 下 ，TensorFlow 的 安装 过 程 非常 简单 方便 ( 千 万 不 要 说 在 Mac 
的 电脑 上 装 了 Windows At). Mac OS 是 基于 UNIX 的 操作 系统 ， 系统 中 已 经 基本 
包含 了 所 有 TensorFlow 需要 的 依赖 组 件 。 


在 跟着 官方 教程 安装 之 前 ， 建 议 使 用 Homebrew 重新 安装 Python。 主要 原因 是 ， 
虽然 Mac OS 自 带 的 Python 在 功能 上 同样 完整 ， 也 可 以 正常 使 用 ， 但 部 分 系统 路 径 
与 使 用 源码 安装 的 版 本 略 有 差别 ， 为 了 避免 一 些 不 必要 的 麻烦 ， 推荐 使 用 brew 重新 
安装 Python 2.7。 另 外 ， 重新 安装 Python 的 一 个 好 处 是 ， 使 用 pip 安装 Python 库 时 
不 再 需要 sudo 权限 。 


1 TensorFlow 从 0.12.0 版 本 开始 增加 了 对 Windows 系统 的 支持 ， 但 还 存在 一 些 明显 的 限制 ， 
如 不 能 使 用 HDFS 存储 、 不 能 加 载 自 定 义 算 子 、 一 些 内 置 算 子 还 未 实现 等 。 具 体 详情 请 参 
见 TensorFlow 的 版 本 发 布 声明 : https//github.com/tensorflow/ tensorflow/blob/master/ 





RELEASE.md。 
2 Homebrew 推荐 使 用 中 科大 镜像 源 ， 设 置 方法 参见 : https://lug.ustc.edu.cn/wiki/ 
mirrors/help/brew.gito 
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$ brew install python 
通过 Homebrew 安装 的 Python 的 位 置 默 认为 /usr/local/Cellar/python。 


TensorFlow 可 以 通过 二 进 制 包 或 源码 安装 。 这 里 推荐 使 用 pip 安装 二 进 制 包 "， 
pip 为 8.1 以 上 版 本 。 过 程 非常 简单 ， 只 需要 短 短 几 行 命令 即 可 。 
$ easy install pip 


$ pip install -U six 
$ pip install tensorflow 


通过 pip 安装 的 库 默认 位 置 为 /usr/local/lib/python2.7/site-packages。 
对 于 配备 独立 显卡 的 Mac 电脑 ， 可 以 安装 GPU 版 本 : 
$ pip install tensorflow-gpu 


需要 注意 的 是 ， 若 要 启用 GPU 支持 ， 需 要 先 安装 coreutils 和 cuda 库 。 安 装 同样 
使 用 brew， 详 细 步骤 可 查看 官方 文档 。 


顺利 执行 结束 后 ， 可 以 检测 一 下 安装 : 


$ python 

>>> import tensorflow as tf 

>>> hello = tf.constant('Hello, TensorFlow!') 
>>> sess = tf.Session() 

>>> sess.run (hello) 

Hello, TensorFlow! 

>>> 


搞定 ! 就 是 这 么 简单 ! 
3.4.2 Linux GPU 服务 器 安装 

对 于 一 般 的 深度 学 习 程序 来 说 ， 目 前 最 具 综 合 优势 的 运行 设备 非 GPU XE. 
Nvidia 作为 当今 世界 著名 的 显卡 生产 制造 企业 C 网 友 戏 称 为 核弹 厂 , 因为 出 品 过 多 款 


性 能 强劲 但 功 耗 和 发 热量 都 极 高 的 “核弹 级 ”显卡 )， 已 经 早早 下 注 深度 学 习 领域 ， 
全 力 开发 高 性 能 计算 显卡 。 在 最 新 的 评测 中 , 几 款 最 强 显 卡 在 关键 程序 上 的 计算 性 能 





3 推荐 使 用 阿里 pip if: http://mirrors.aliyun.com/help/pypio 
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指标 是 Intel ES 系列 服务 器 CPU 的 10 倍 以 上 。 也 就 是 说 ，10 台 CPU 服务 器 全 力 运 
行 , 才能 抵 得 上 一 块 高 性 能 计算 显卡 ， 差距 十 分 明显 。 也 正 因 如 此 , 在 深度 学 习 的 研 
究 和 应 用 方面 ， 高 性 能 GPU 服务 器 可 以 说 是 必 不 可 少 的 基础 设施 。 


要 拥有 自己 的 GPU 服务 器 可 以 有 两 种 方式 ， 一 种 是 直接 购买 配件 自行 搭建 服务 
器 , 另 一 种 是 购买 云 计算 服务 商 提 供 的 GPU 云 主 机 。 国 内 外 比较 知名 的 云 计 算 厂 商 ， 
如 Amazon、 阿 里 云 、UCloud 等 ， 都 提供 了 GPU 云 服务 器 的 选择 。 而 搭建 自己 的 服 
务 器 能 更 灵活 地 满足 业务 需求 ， 并 且 从 目前 的 价格 来 说 ,也 更 加 经 济 实惠 。 所 以 , 在 
有 条 件 的 情况 下 ， 组 装 服务 器 是 目前 更 推荐 的 选择 。 


首先 来 介绍 最 为 关键 的 GPU 的 选择 。 对 于 科学 计算 而 言 ， 决 定性 能 最 关键 的 指 
标 是 GPU 的 浮 点 运算 能 力 。 特 别 地 ， 对 于 目前 主流 的 深度 学 习 应 用 来 说 ， 单 精度 浮 
点 运算 能 力 是 核心 需求 。 所 以 ， 在 单 精度 浮 点 运算 方面 综合 性 价 比 最 高 的 就 是 合理 的 
选择 。 从 这 方面 讲 ，Tesla 系列 虽然 性 能 出 众 ， 但 由 于 价格 过 于 昂贵 ， 对 于 深度 学 习 
应 用 来 说 优势 不 太 明 显 。Geforce GTX 系列 一 直 是 Nvidia 在 游戏 市 场 的 主打 , 拥有 较 
高 的 性 价 比 。 其 中 ，Titan X 是 计算 单元 最 多 、 性 能 最 高 的 一 款 产 品 ， 在 深度 学 习 研 
究 中 被 广泛 应 用 。 在 配置 服务 器 时 ， 推荐 选择 同系 列 显 卡 中 性 能 最 高 的 产品 '， 原 因 
是 如 果 要 达到 同等 的 计算 能 力 ， 顶级 显卡 需要 更 少 的 机 器 数量 。 否 则 ， 不 仅 会 导致 
CPU、 内 存 、 主 板 、 硬 盘 等 配套 硬件 的 额外 成 本 ， 还 会 增加 维护 的 成 本 。 


其 次 , 服务 器 的 供电 和 散热 是 需要 重点 关注 的 方面 。Nvidia 的 高 性 能 显卡 素来 以 
高 功 耗 、 高 发 热量 著称 , 若 一 台 服务 器 装 满 4 块 或 8 块 显卡 , 那 耗 电量 和 发 热量 都 是 
相当 高 的 。 所 以 ， 为 主机 配备 稳定 的 电源 ， 甚 至 UPS 等 保证 供电 稳定 的 设备 ， 配 合 
强劲 的 散热 风扇 ， 对 保护 服务 器 都 有 巨大 的 帮助 。 


最 后 ， 除 了 GPU 以 外 的 其 他 部 分 ， 如 CPU、 内 存 、 硬盘 、 网 络 带 宽 等 ， 没 有 特 
别 要 求 ， 达到 普通 服务 器 的 平均 水 平 就 基本 不 会 构成 性 能 瓶颈 。 如 果 有 大 数据 的 VO 
操作 ， 附 加 配置 一 块 SSD 固态 硬盘 即 可 满足 。 


服务 器 的 操作 系统 推荐 选择 Ubuntu 或 Cent OS, BE. MESH. TRAE, 


一 


4 Nvidia 官方 给 出 了 各 种 GPU 计算 性 能 的 参照 表 ， 可 以 参看 网 址 : https;//developer. 


nvidia.com/cuda-gpuso 
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总 之 就 是 省 力 省 心 。 

服务 器 初步 搭建 完毕 后 ， 需 要 安装 CUDA Toolkit 和 cuDNN 库 以 启用 GPU 加 速 
环境 。CUDA Toolkit 是 Nvidia 提供 的 CUDA 开发 套件 ， 其 中 包括 了 CUDA 驱动 , 以 
及 编写 CUDA 程序 必须 使 用 的 编译 器 和 头 文件 ， 还 有 一 些 辅助 函数 库 。cuDNN 是 基 
于 CUDA Toolkit 编写 的 专门 面向 深度 神经 网 络 的 GPU 加 速 库 , 其 中 提供 了 一 系列 深 
度 神经 网 络 常用 的 计算 ， 如 网 络 的 forward 和 backward 计算 、 卷 积 计算 、 池 化 计算 、 
标准 化 , 以 及 多 种 激活 函数 , TensorFlow 直接 使 用 这 些 库 函 数 来 实现 各 种 计算 的 GPU 
加 速 。 


CUDA Toolkit 直接 从 Nvidia 官方 网 站 上 选择 相应 平台 下 载 二 进 制 安装 文件 即 可 5。 
以 CUDA 8.0 为 例 ， 下 载 文件 为 cuda_8.0.44_linux.run， 使 用 Bash 命令 执行 安装 , P 
认 安 装 位 置 为 /usr/local/cuda: 


$ sudo bash cuda 8.0.44 linux.run 


安装 完成 后 可 以 发 现 ，Nvidia 提供 了 多 种 辅助 工具 。 其 h, nvidia-smi 命令 可 以 
查看 服务 器 上 每 块 显卡 的 状态 。 可 以 从 图 3-1 中 看 到 ，nvidia-smi 命令 显示 了 服务 器 
上 每 一 块 显卡 的 信息 ， 包 括 型 号 、 温 度 、 功 率 、 显 存 使 用 情况 、CUDA 计算 单元 的 
使 用 情况 等 ， 还 能 看 到 哪些 进程 正在 使 用 GPU 执行 计算 。 这 些 信息 对 程序 剖析 有 一 
定 的 帮助 。 

TensorFlow 对 于 神经 网 络 的 GPU 加 速 都 通过 cuDNN 库 实现 。cuDNN 可 以 在 
Nvidia 官方 网 站 下 载 和 ,需要 注意 的 是 , 下载 版 本 需要 与 CUDA Toolkit 的 版 本 相 匹 配 。 
cuDNN 库 以 动态 链接 库 的 形式 提供 ,解压 下 载 tar 包 ， 并 设置 LD ) LIBRARY PATH 
环境 变量 使 系统 可 以 加 载 ， 或 者 将 环境 变量 设置 在 bashrc 文件 中 会 更 加 方便 。 





5 CUDA Toolkit 下 载 网 址 : https://developer.nvidia.com/cuda-downloads。 
6 cuDNN 下 载 网 址 : https://developer.nvidia.com/cudnn。 
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图 3-1 用 nvidia-smi 工具 查看 显卡 信息 


$ cd «install path of cudnn» 
$ export LD LIBRARY PATH-'pwd':S$LD LIBRARY PATH 


安装 完 CUDA Toolkit 和 cuDNN 库 后 ， 同 样 使 用 pip 来 安装 TensorFlow。 


$ sudo apt-get install python-pip python-dev 
$ sudo pip install --upgrade pip 
$ sudo pip install tensorflow-gpu 


检测 一 下 安装 : 


$ python 

>>> import tensorflow as tf 

I  tensorflow/stream executor/dso loader.cc:108] successfully 
. opened CUDA library libcublas.so locally 

I tensorflow/stream executor/dso loader.cc:108] successfully 
opened CUDA library libcudnn.so locally 

I  tensorflow/stream executor/dso loader.cc:108] successfully 
opened CUDA library libcufft.so locally 

I tensorflow/stream executor/dso_loader.cc:108] successfully 
opened CUDA library libcuda.so locally 

I tensorflow/stream executor/dso loader.cc:108] successfully 
opened CUDA library libcurand.so locally 

>>> tf. version . 

'0.12.1' 

>>> 


可 以 看 到 ,与 CPU 版 本 不 同 的 是 ,GPU 版 本 的 TensorFlow 在 启动 时 会 加 载 CUDA 
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相关 的 动态 链接 库 ， 如 libeudaso. libcudnn.so 等 。 在 执行 时 看 到 这 样 的 log 就 说 明 
GPU 版 本 TensorFlow 安装 成 功 了 d 


3.1.3 常用 Python Æ 


MATLAB 曾经 是 机 器 学 习 领域 里 的 主流 语言 ， 是 因为 它 拥有 强大 的 科学 计算 能 
力 和 丰富 的 数据 处 理 库 。 而 在 当下 ，Python 得 到 了 越 来 越 多 的 数据 分 析 专业 人 士 的 
青 哑 ， 是 因为 它 不 但 拥有 灵活 强大 的 语法 ， 有 较 低 的 学 习 门 槛 ， 而 且 出 现 了 NumPy 
等 专门 用 于 科学 计算 的 函数 库 ， 补 足 了 计算 性 能 上 的 问题 。 配合 以 更 多 辅助 工具 库 ， 
如 绘制 图 形 的 Matplotlib 等 ， 让 Python 成 为 当前 在 机 器 学 习 领 域 使 用 最 多 的 语言 。 


这 里 介绍 几 个 常用 工具 库 。 
1. NumPy 


NumPy 库 为 Python 提供 了 基础 的 科学 计算 能 力 ， 遵 循 BSD 开源 协议 。 在 标准 
的 Python 中 , 为 了 保持 数组 对 象 的 动态 特性 ， 数组 中 实际 存储 的 是 每 个 元 素 的 指针 ， 
存储 和 访问 时 都 需要 经 过 多 次 指针 跳 转 。 这 样 的 方 式 虽然 非常 灵活 , 但 对 于 数值 运算 
来 说 既 浪费 内 存 又 低 效 。NumPy 弥补 了 这 方面 的 不 足 ， 它 提供 了 如 C 语言 一 样 的 高 
效 的 N 维 数组 结构 ndarray (N-dimensional array object) 和 一 系列 直接 对 数组 进行 处 理 
的 函数 ufunc (universal function object), 不 但 保留 了 Python 简洁 灵活 的 语法 ， 也 带 来 
TAFE C 语言 程序 的 运算 速度 。 除 此 之 外 ， NumPy 还 提供 了 常用 的 线性 代数 计算 ， 
甚至 傅 里 叶 变 换 等 函数 ， 可 以 进行 多 种 信号 处 理 。 


2. pandas 


pandas 全 称 为 Python Data Analysis Library, 是 一 个 高 性 能 数据 结构 和 数据 分 析 
工具 ,同样 遵循 BSD 开源 协议 。pandas 基于 NumPy 构建 ， 让 以 NumPy 为 中 心 的 应 
用 开发 变 得 简单 。 它 提供 了 一 种 高 效 的 DataFrame 结构 ， 可 以 自动 对 齐 、 补 全 数据 ， 
免 去 了 由 于 输入 数据 缺失 导致 的 问题 。 还 可 以 灵活 地 完成 增加 、 删除 数据 列 ， 调 整 列 
的 顺序 等 元 数据 操作 。 此 外 ，DataFrame 还 能 像 数据 库 一 样 进行 一 些 简单 的 查询 、 聚 
合 操作 。 因 此 ， 可 以 说 pandas 是 解决 数据 处 理 问题 不 可 或 缺 的 重要 工具 之 一 。 
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3. Matplotlib 


Matplotlib 是 功能 强大 的 画图 引 秘 ， 可 以 制作 高 质量 的 图 表 。 绘 图 是 数据 分 析 工 
作 中 的 一 项 重要 任务 ， 通 过 简洁 易 懂 的 类 MATLAB 接口 ， 可 以 只 用 短 短 几 行 代码 给 
制 曲线 图 、 散 点 图 、 直方 图 、 柱 状 图 、 饼 状 图 等 图 标 , 方便 人 们 更 加 直观 地 感受 数据 ， 
并 且 完 成 分 析 数据 的 特征 、 查 找 异 常数 据 值 等 工作 。 另 外 ， 通 过 pandas 集成 的 部 分 
工具 函数 , 如 scatter_matrix, 可 以 直接 对 高 维 数据 进行 可 视 化 观察 ,对 于 分 析 数 据 处 
理 数据 有 非常 重要 的 帮助 。 


4，PIL 


PIL 全 称 Python Imaging Library, 目前 已 经 成 为 Python 平台 事实 上 的 标准 图 片 处 
理 库 。PIL 可 以 方便 地 读 入 和 输出 包括 jpg, pog 等 多 种 常见 类 型 的 图 像 文件 ， 还 能 对 
图 像 做 切割 、 翻 转 、 添 加 文字 等 变换 。 是 处 理 图 像 数据 的 常用 工具 之 一 。 


5. IPython & Jupyter 


Jupyter 是 一 个 开源 的 交互 式 数据 分 析 处 理 平台 。 Jupyter Notebook 能 以 Web 网 页 
的 形式 创建 和 分 享 文档 ， 并 可 以 在 文档 中 插入 代码 段 ， 交互 式 地 查看 代码 运行 结果 。 
IPython 是 Jupyter 的 前 身 , 也 是 目前 Jupyter 中 Python 代码 的 执行 引 黎 。 目 前 , Jupyter 
已 经 支持 包括 R Julia 在 内 的 多 种 数据 分 析 常 用 语言 。 同 时 ， 因 其 搭建 服务 的 便捷 性 ， 
加 上 多 种 扩展 功能 ， 如 制作 精美 的 幻灯 片 ， 使 其 成 为 分 享 代码 、 分 享 文档 的 利器 。 

6. scikit-learn (sklearn) 

scikit-learn 的 标语 是 “Machine Learning in Python" , 是 构建 在 NumPy. Matplotlib 
等 工具 之 上 的 一 套 完整 的 机 器 学 习 工具 库 。 在 该 库 中 封装 了 多 种 常用 的 分 类 、 回 归 、 
聚 类 、 数 据 降 维 、 数 据 预 处 理 等 算法 , 三 五 行 代码 就 可 以 完成 简单 机 器 学 习 模型 的 定 
义 和 训 练 ， 使 数据 挖掘 变 得 非常 简单 。scikit-learn 的 接口 设计 是 如 此 的 合理 易 用 ， 以 
至 于 TensorFlow 出 现 以 后 ， 很 多 项 目 都 仿照 scikit-leam 的 接口 对 TensorFlow 进行 了 
二 次 封装 ， 使 接口 更 加 简洁 ， 代 码 更 加 明晰 易 读 。 

7. OpenCV 


OpenCV 的 全 称 是 Open Source Computer Vision Library， 是 一 款 跨 平台 机 器 视觉 
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LAR, 在 产品 质量 检测 、 医 学 成 像 、 机 器 人 、 监 控 摄 像 机 定位 等 多 种 计算 机 视觉 应 
用 领 用 中 都 有 使 用 ,OpenCV 内 核 使 用 C/C++ 语言 开发 ,运行 速度 快 ,前 端 支 持 Python, 
MATLAB, Ruby 等 多 种 语言 。OpenCV 中 包含 图 像 滤波 、 特 征 提取 、 视 频 分 析 、 三 
维 重 建 等 功能 模块 ， 还 包括 人 脸 识别 、 目 标 检测 等 高 级 功能 ， 可 以 满足 许多 图 像 处 理 
方面 的 高 级 需求 。 此 外 ， 由 于 计算 机 视觉 与 机 器 学 习 密 切 相关 ， OpenCV 中 还 集成 了 
机 器 学 习 库 ， 可 以 用 于 处 理 一 些 模式 识别 和 聚 类 方面 的 问题 。 


在 这 些 功能 强大 的 工具 的 辅助 下 , 数据 分 析 处 理 的 工作 就 可 以 事半功倍 。 在 本 书 
的 实际 应 用 例子 中 ， 会 穿插 介绍 这 些 工具 中 的 部 分 功能 。 


3.2 Titanic 题目 实战 


实践 是 最 好 的 学 习 手段 。 接 下 来 我 们 通过 尝试 用 TensorFlow 解决 一 个 分 类 问题 ， 
来 了 解 TensorFlow 的 编程 模式 和 常用 接口 ， 以 及 一 些 提升 预测 准确 率 的 优化 思路 。 


Titanic 问题 是 Kaggle 平台 上 的 一 个 练 手 题目 7， 要 求 使 用 数据 分 析 的 方法 预测 秦 
坦 尼 克 号 的 幸存 者 名 单 。 虽 然 这 并 不 是 一 个 有 奖金 的 正式 题目 , 仅 供 大 家 尝试 和 学 习 ， 
但 是 由 于 数据 简单 整洁 ,又 是 典型 的 二 分 类 问题 ,作为 第 一 次 实践 是 非常 不 错 的 题目 。 


3.2.1 Kaggle 平台 介绍 


Kaggle 平台 是 著名 的 数据 分 析 竞赛 在 线 平台 , 创始 于 2010 年 。 在 Kaggle 平台 上 
有 各 种 有 趣 的 数据 挖掘 挑战 题目 ， 包 括 分 类 、 预 测 、 推 荐 等 多 种 类 型 。 全 世界 的 科学 
家 和 数据 分 析 师 可 以 以 组 队 或 者 solo 的 形式 参与 竞赛 。 参 赛 者 可 以 使 用 任何 方法 对 
题目 给 出 的 数据 进行 分 析 , 并 对 测试 集 数据 进行 预测 , 最 后 平台 以 预测 准确 率 为 标准 
判定 参赛 者 的 成 绩 。 一 些 知名 企业 和 机 构 也 会 与 Kaggle 平台 合作 ， 将 业务 中 的 一 些 
难题 提出 为 数据 挖掘 任务 ， 并 设立 高 额 奖金 , 让 更 多 的 专家 参与 解决 , 比如 针对 高 清 
卫星 图 的 物体 识别 、 产 品 推荐 、 超 声 图 像 识 别 、 鱼 类 检测 识别 ， 等 等 。 

Kaggle 作为 竞赛 平台 ， 拥 有 一 套 比较 完备 的 评分 系统 。 参 赛 者 的 成 绩 一 般 以 预 
测 的 准确 率 排名 , 预测 结果 越 准确 则 排名 越 高 。 参赛 者 每 天 的 排名 设立 了 公开 排行 榜 


7 Titanic 题目 网 址 : https://www.kaggle.com/c/titanic。 
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( public leaderboard ) 和 非 公开 排行 榜 ( private leaderboard )。 在 公开 排行 榜 中 ， 所 有 
人 随时 都 可 以 查看 预测 准确 率 和 当前 排名 , 不 过 这 里 对 于 准确 率 的 计 算 并 不 是 以 全 部 
测试 数据 作为 基准 , 而 只 是 测试 集中 的 一 部 分 数据 ， 或 者 说 可 以 认为 是 平台 的 验证 集 
AGE, 公开 榜 可 以 让 参赛 者 对 自己 算法 的 表现 有 一 个 初步 评估 ， 通过 与 他 人 的 对 比 来 
看 是 否 还 有 提升 空间 。 为 了 防止 参赛 者 利 用 多 次 提交 的 方法 来 试探 测试 集 数据 的 结果 ， 
人 肉 对 测试 数据 “过 拟 合 "， 竞 赛 最 终 成 绩 由 另 一 份 测试 数据 ， 也 就 是 非 公开 排行 榜 
的 排名 所 决定 的 。 

除了 举办 各 种 比赛 之 外 ，Kaggle 平台 上 还 积累 了 各 种 有 趣 的 数据 集 *。 其 中 被 关 
注 较 多 的 有 欧洲 足球 赛 对 战 数 据 ， 在 这 份 数 据 中 性 括 了 超过 25000 场 比赛 和 超过 
10000 名 球员 的 数据 ， 其 中 被 详尽 记录 ( 进 球 、 角 球 、 越 位 、 红 黄牌 等 ) 的 比赛 就 超 
过 1 万 场 ， 甚 至 有 10 家 博彩 机 构 给 出 的 投注 赔 率 。 通过 这 样 的 大 数据 不 仅 可 以 对 各 
个 球员 或 球 队 的 历史 进行 多 维度 分 析 ， 计算 各 种 单项 和 综合 实力 , 更 能 对 未 来 的 表现 
进行 预测 。 这 样 让 富 全 面 数据 确实 不 可 多 得 。 


Kaggle 平台 是 一 个 可 以 让 人 们 充分 交流 的 地 方 ， 参赛 者 们 不 仅 比拼 技术 ， 更 能 
交流 经 验 。 即 使 只 是 翻 看 各 个 题目 的 讨论 帖 ,也 会 觉得 受益 罪 浅 ， 例如 题目 会 有 数据 
图 形 化 讨论 专区 , 在 里 面 会 从 各 种 维度 给 出 数据 的 可 视 化 视图 。 这 对 于 初学 者 来 说 是 
非常 好 的 学 习 途 径 。 


3.2.2 Titanic 题目 介绍 


泰坦 尼克 号 轮船 (RMS Titanic， 又 称 为 铁 达 尼 号 ) 的 沉没 是 历史 上 最 著名 的 海 
难事 故 之 一 。 作 为 当时 世界 上 最 大 的 客运 轮船 , 它 在 处 女 航 中 由 于 撞 上 冰山 导致 轮船 
断裂 ， 并 最 终 沉 入 大 西洋 。 当 时 船上 共有 2224 名 乘客 和 船员 ,其 中 1502 ARE, 在 
回顾 这 样 一 场 浩 动 的 过 程 中 ， 分 析 发 现 造成 如 此 巨大 损失 的 原因 之 一 是 当时 轮船 上 并 
没有 准备 足够 的 救生 艇 。 在 这 起 事件 发 生 后 ， 除了 推动 建立 了 更 合理 的 航行 安全 规范 
外 ， 人 们 还 分 析 了 当时 对 于 仅 有 的 救生 艇 位 置 的 分 配 过 程 , 虽然 最 后 幸存 是 有 一 定 的 
运气 成 分 , 但 一 些 乘 客 确实 比 另 外 一 些 更 容易 获救 , 比如 妇女 、 儿 童 ， 以 及 高 级 舱位 
的 乘客 。 





8 Kaggle 数据 库 : https://www.kaggle.com/datasets。 
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本 题目 是 希望 重新 站 在 客观 的 视角 来 重新 回顾 这 一 事件 。 通 过 分 析 事 发 时 的 数据 ， 
使 用 机 器 学 习 的 方法 来 预测 哪些 乘客 最 终 能 在 这 次 灾难 中 幸存 下 来 。 更 具体 来 说 , 是 
通过 乘客 的 各 项 信息 ,如 姓名 、 性 别 、 年 龄 、 乘 船 客 舱 等 级 等 信息 ,尝试 预测 每 位 乘 
客 幸存 的 概率 。 


既然 是 要 预测 每 位 乘客 是 否 可 以 幸存 , 那么 可 以 认为 这 是 一 个 二 分 类 问题 , 即 一 
类 标签 为 存活 ， 另 一 类 标签 为 丧生 。 我 们 最 终 需 要 训练 一 个 分 类 器 ， 可 以 是 SVM, 
神经 网 络 、 随 机 森林 等 模型 ， 来 判定 样本 所 属 的 类 别 。 


对 于 此 类 数据 挖掘 题目 , 对 数据 进行 一 些 简单 的 分 析 和 处 理 是 必要 的 第 一 步 。 从 
Kaggle 网 站 下 载 本 问题 的 数据 集 ?， 可 以 看 到 ， 数 据 分 为 训练 集 和 测试 集 两 类 ， 均 以 
csv 格式 存储 。 训 练 集 数据 文件 train.csv 大 小 为 59.76KB， 包含 891 条 数据 ， 测 试 集 
数据 文件 test.csv 的 大 小 为 27.96KB， 包 含 418 条 数据 。 在 数据 文件 中 ， 每 一 行 是 一 
个 样本 ， 代 表 一 名 乘客 的 信息 ， 包 含 以 下 12 个 字段 ， 如 表 3-1 所 示 。 


表 3-1 Titanic 挑战 字段 说 明 


字段 名 称 字段 解释 | 类 型 | 说 m 





fasce RE ID | 训练 集 数据 ID 编号 为 1-891, ij 
试 集 数据 编号 为 892~1309 

"e 客舱 等 级 a" 客舱 分 为 3 级 ，! 为 头等 抒 ，2 为 
中 等 舱 ，3 为 普通 船舱 

Name 乘客 姓名 


[eee ET 
Age jemi [im | 年 上 为 
Parch | SARTE f 
SAEI S, DI “s” C 代表 Cherbourg; 
Embarked string Q 代表 Queenstown; 
S 代表 Southampton 





9 Titanic 问题 数据 下 载 网 址 : https://www.kaggle.com/c/titanic/data, 
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其 中 ，"“Survived” 字 段 代表 该 名 乘客 最 终 是 否 生还 ， 是 样本 的 标签 字段 。 图 3-2 
展示 了 前 10 条 训练 数据 的 内 容 : 











[Passongerid Survived” Peiasa Nome LTT LST A SiSp Parch Wee TT Para cabin NE 本 
| , 0 3 Braund, Mr. Owen Hans: | malo 22 1 0 AS2171 725 8 
a r Ta Cummings. Mes, John Bradioy (Fioronco Briggs Thayer) temako 38 1 0 PC 17599 “james ce 
3| 1] 3 Hekidnen. tiss. Laina [mao 20 0 0 STONOZ3IN282 — 7525 s 
4| 1 1 Futiolio, Mrs. Jacques Heath (Lily May Peel) | tomate 35 1 0 113803 $31 C123 s 
s| o 3 Allen, Mr. William Henry | mato | 3$ 0 o 373450 805 s 
7 o 3 Monan w we OOOO BE X o o Taser, saw) 0 e 
z| ^ 0| 1 McCarey, Me. Tunomy J P imde 54 0 0 ^ne sS Eb —5. — 
e! O. 3 Palsson, Master. Gosta Leonard lw 52 3 1 349909 — 21078 s 
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图 3-2 Titanic 挑战 前 10 条 样本 数据 
测试 集 的 每 条 数据 包含 了 除 “Survived” 字段 以 外 的 其 他 所 有 字段 。 
最 后 需要 输出 的 结果 包含 两 列 ,分 别 为 测试 集 乘客 ID 和 对 应 乘客 是 否 幸存 预测 。 


通过 观察 题目 给 定 的 条 件 ,我 们 可 以 根据 一 些 生活 常识 和 对 Titanic 事 件 的 了 解 ， 

对 数据 进行 一 些 初步 推断 。 比 如 我 们 看 过 《泰坦 尼克 号 》 电 影 的 都 知道 ， 事 故 发 生 在 
寒冷 的 海上 冰山 ， 如果 在 轮船 沉没 前 登 上 了 为 数 不 多 的 救生 徐 , 则 基本 可 以 幸存 , 否 
则 落 入 寒冷 的 大 西洋 就 一 定 是 凶 多 吉 少 ， 就 像 电影 中 的 男 主人 公 Tack 一 样 。 那 么 在 
这 样 一 种 情况 下 ， 都 有 哪些 人 登 上 了 救生 徐 呢 ? 首先 是 妇女 和 儿童 ， 轮船 上 大 部 分 
人 为 英国 人 , 英国 是 讲究 绅士 风度 的 国家 ， 不 管 是 船员 还 是 乘客 都 会 一 致 认为 应 该 让 
妇女 和 儿童 先 登 上 救生 合 , 也 因此 妇女 儿童 幸存 的 比例 会 比 成 年 男性 要 高 。 其 次 ， 高 
等 客舱 的 乘客 基本 是 贵族 、 军官 等 有 身份 地 位 的 人 ， 他 们 在 事故 发 生 后 也 会 得 到 额外 
照顾 ,获得 优先 登 上 救生 徐 的 资格 。 剩 下 的 其 他 人 就 没有 那么 幸运 了 ， 幸存 概率 比较 
低 。 这 些 先 验 知识 ， 在 后 续 的 判定 中 将 起 到 非常 大 的 作用 。 


对 于 我 们 认为 相关 性 较 高 的 字段 ， 比 如 客舱 等 级 “Pclass”、 乘 客 性 别 “Sex 、 乘 
Ahh "Age", 将 在 之 后 作为 主要 的 特征 字段 ,需要 经 过 正规 化 ( Normalization ) 处 
理 后 转换 为 数值 形式 。 在 本 例 中 ,正规 化 主要 有 三 个 方面 ， 一 是 将 字符 串 字 段 转换 为 
数值 化 的 表达 方式 , 比如 将 性 别 字 段 原本 取信 “male” 和 “female” 分 别 转换 为 0 和 
1， 这 样 才能 作为 分 类 器 的 输入 ; 二 是 可 以 将 数值 都 归 一 化 到 [0, 1] 的 取 值 范围 内 ， 
比如 年 龄 字段 原本 的 值 域 是 [0, 100) ， 归 一 化 过 程 可 以 是 将 每 个 值 都 除 以 1005 三 是 
补 齐 缺 失 数据 。 
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除了 我 们 认为 的 关键 字段 以 外 , 其 他 字段 可 能 也 包含 很 多 有 用 的 信息 , 部 分 可 以 
经 过 挖掘 转换 后 作为 特征 使 用 。 对 于 一 些 现实 生活 中 的 复杂 问题 , 人 类 的 认 知 可 能 也 
是 片面 的 、 不 准确 的 , 真实 的 相关 性 可 能 隐藏 在 其 他 数据 中 , 所 以 抓 取 更 多 数据 是 惯 
用 的 思路 ， 但 同时 会 随 之 出 现 维度 灾难 ( curse of dimensionality ) 的 问题 ， 也 就 是 维 
度 过 多 、 无 效 的 噪声 过 多 ， 导 致 无 法 有 效 地 从 中 过 滤 出 真正 有 用 的 信息 。 在 本 例 中 ， 
如 姓名 “Name”、 父 母子 女 在 船舱 数量 “ParCh”"、 客 舱位 置 “Cabin”"、 登 向 码头 编号 
“Embarked” 等 几 个 字段 ， 猛 一 看 似乎 与 能 否 逃 生 并 没有 太 大 的 直接 关系 ， 但 若 经 过 
挖掘 也 许 能 有 意外 的 收获 。 在 本 章 后 半 部 分 会 进一步 深入 讨论 。 


经 过 上 述 分 析 后 ， 我 们 可 以 得 出 解决 Titanic 问题 的 主要 思路 ， 即 首先 采用 正规 
化 操作 等 手段 对 原始 数据 进行 预 处 理 , 然后 挑选 特征 向 量 的 维度 , 并 以 此 训练 一 个 分 
类 器 ， 最 终 使 用 训练 好 的 分 类 器 来 预测 测试 集 数据 的 结果 。 


接 下 来 , 就 可 以 进入 真正 的 编码 解 题 阶段 。 作 为 首次 尝试 , 无须 追求 一 步 到 位 地 
好 的 结果 。 因 此 ， 我 们 首先 尝试 用 TensorFlow 训练 一 个 逻辑 回归 分 类 器 来 看 看 效果 
如 何 。 


整个 代码 可 以 分 为 : 数据 读 入 及 预 处 理 , 构建 计算 图 ， 构建 训练 迭代 过 程 ， 执 行 
训练 、 存 储 模 型 ， 预 测 测试 数据 结果 几 个 部 分 。 下 面 就 对 每 一 部 分 分 别 加 以 介绍 !。 


3.2.3 数据 读 入 及 预 处 理 
对 数据 进行 预 处 理会 使 用 到 pandas 和 scikit-leam 库 所 提供 的 一 些 功能 。 


首先 , 使 用 pandas 内 置 的 数据 文件 解析 器 读 入 数据 。 pandas 内 置 了 多 种 解析 器 ， 
可 以 直接 处 理 csv. pickle, json, excel, html 等 常用 的 数据 文件 格式 ， 甚 至 还 可 以 从 
MySQL 数据 库 或 者 操作 系统 的 剪 切 板 中 读 入 数据 。 读 入 操作 非常 简单 ， 只 需要 用 
read csv() 函数 读 取 "train.csv" 文件 ， 读 入 的 数据 为 一 个 DataFrame 类 型 的 对 象 。 


import pandas as pd 


+ 从 csv 文件 中 读 入 数据 


10 完整 版 本 代码 可 参见 : https://github.com/wangchenlren/Titanic., 
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data - pd.read csv('train.csv') 


DataFrame 是 一 个 类 似 于 电子 表格 的 二 维 数据 结构 ， 长 度 可 变 ， 维 度 可 变 ， 类 型 


亦 可 变 。 在 DataFrame 中 ， 行列 都 经 过 排序 编号 。 


可 以 通过 DataFrame.info() 方 法 查看 数据 的 概况 : 


>>> data.info() 

«class 'pandas.core.frame.DataFrame'? 
RangeIndex: 891 entries, 0 to 890 
Data columns (total 12 columns): 


Passengerld 891 non-null int64 
Survived 891 non-null int64 
Pclass 891 non-null int64 
Name 891 non-null object 
Sex 891 non-null object 
Age 714 non-null float64 
SibSp 891 non-null int64 
Parch 891 non-null int64 
Ticket 891 non-null object 
Fare 891 non-null float64 
Cabin 204 non-null object 
Embarked 889 non-null object 


dtypes: float64(2), int64 (5), object (5) 
memory usage: 83.6+ KB 


可 以 看 到 ， 数 据 包含 891 条 记录 ， 下 标 编号 为 0 到 890. 数据 包含 12 个 列 ， 正 


如 前 面 介绍 过 的 一 样 。 其 中 ，Passangerld、Survived、Pclass、Age、 SibSp、Parch、 
Fare 几 个 字段 为 数值 类 型 ( 64 位 整形 或 64 位 浮 点 型 ), 而 Name, Sex, Ticket, Cabin, 
Embarked 字段 是 对 象 ， 其 实 也 就 是 字符 串 类 型 。 同 时 ， 还 可 以 从 这 个 简短 的 统计 看 
BJ, Age. Cabin, Embarked 三 个 字段 存在 缺失 的 情况 , Age 字段 只 有 714 个 有 效 值 ， 
缺失 177 个 ; Embarked 有 889 ME, 缺失 2 个 ; Cabin 字段 仅 有 204 个 值 , 缺失 达到 


687 个 。 


为 了 方便 处 理 , 我 们 仅 保留 Sex、Age、 Pelass, SibSp, Parch, Fare 这 6 个 字段 。 


在 前 文中 提 到 , 首先 对 各 字段 做 正规 化 处 理 。 具 体 来 说 ， 要 将 Sex 字段 的 字符 串 进 行 
转换 ， 将 “male” 蔡 换 为 0， 将 “female” 蔡 换 为 1。 同 时 ， 将 Age 字段 有 缺失 的 部 


分 统一 赋值 为 0。 
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另外 ， 需 要 将 样本 的 标签 转换 为 独 热 编码 ( one-hot encoding )。 独 热 编码 又 称 为 
一 位 有 效 编码 ， 是 分 类 标签 常用 的 编码 方式 。 具 体 来 说 ， 就 是 使 用 N 位 布尔 型 的 状 
态 标识 来 对 N 种 状态 进行 编码 ， 任 意 时 刻 编码 中 只 有 一 位 有 效 ， 即 取 值 为 True。 在 
本 例 中 , Survived 是 幸存 一 类 的 标签 , 新 建 一 个 Deceased 字段 来 表示 乘客 是 否 死 亡 ， 
其 取 值 为 Survived 的 取 非 。 这 样 Survived 与 Deceased 两 个 字段 一 起 相当 于 构成 了 一 
组 one-hot 编码 。 

# 取 部 分 特征 字段 用 于 分 类 ， 并 将 所 有 缺失 的 字段 填充 为 0 

data['Sex'] = data['Sex'].apply(lambda s: 1 if s == 'male' else 0) 

data - data.fillna(0) 

dataset X = data[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 'Fare']] 

dataset X - dataset X.as matrix() 


# 两 种 分 类 分 别 是 幸存 和 死亡 ，' Survived' 字 段 是 其 中 一 种 分 类 的 标签 ， 

# HUS 'Deceased' 字段 表示 第 二 种 分 类 的 标签 ， 取 值 为 ，Survived' 字段 取 非 
data['Deceased'] = data['Survived'].apply(lambda s: int(not s) 
) 


dataset Y = data[{'Deceased' , 'Survived'])] 

dataset Y - dataset Y.as matrix() 

然后 ， 为 了 防止 训练 过 拟 合 ， 我 们 将 仅 有 的 标记 数据 分 成 训练 数据 集 (training 
dataset ) 和 验证 数据 集 ( validation dataset) 两 类 。 验 证 数据 不 参与 模型 训练 ， 样 本 数 
占 全 部 标记 数据 的 20%. scikit-leam 库 中 提供 了 用 于 切 分 数据 集 的 工具 函数 
train_test_split0， 随 机 打 乱 数据 后 按 比例 拆 分 数据 集 。 


from sklearn.model selection import train test split 


+ 使 用 sklearn 的 train test split 函数 将 标记 数据 切 分 为 “训练 数据 集 和 验证 
数据 集 
# 将 全 部 标记 数据 随机 洗 牌 后 切 分 ， 其 中 验证 数据 占 20$， 由 test_size 参数 指定 
X train, X test, y train, y test = train test split( 
dataset X, dataset Y, test size-0.2, random state-42) 


3.24 构建 计算 图 


逻辑 回归 是 形式 最 简单 , 并 且 最 容易 理解 的 分 类 器 之 一 。 从 数学 上 , 逻辑 回归 的 
预测 函数 可 以 表示 为 如 下 公式 ; 


y' = softmax(xW + b) 
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其 中 ，x 为 输入 向 量 ， 是 大 小 为 d x 1 的 列 向 量 ，d 是 特征 数 。W 是 大 小 为 c x d 的 
权重 矩阵 , c 是 分 类 类 别 数目 。b 是 偏 置 向 量 ,为 c x 1 列 向 量 。 在 数学 定义 里 , softmax 是 
指 一 种 归 一 化 指数 函数 。 它 将 一 个 k 维 的 向 量 z 按 照 下 列 公式 


Z] 


e 
$ (2)j = Oe, ek eA 


的 形式 将 向 量 中 的 元 素 转换 为 (0, 1) 的 区 间 。 机 器 学 习 领 域 常 使 用 这 种 方法 将 类 似 判 
别 函 数 的 置信 度 值 转换 为 概率 形式 ( 如 判别 超 平面 的 距离 等 )。 softmax 函 数 常用 于 输 
出 层 ， 用 于 指定 唯一 的 分 类 输出 。 

权重 矩阵 Ww 和 偏 置 向 量 b 是 模型 中 的 参数 ， 也 就 是 要 通过 训练 来 求 得 的 部 分 。 

使 用 TensorFlow 构建 这 样 的 计算 过 程 是 十 分 简单 的 ， 整个 构建 计算 图 的 过 程 只 
需要 以 下 几 个 步 又 。 

1。 使 用 placeholder 声明 输入 占 位 符 

在 第 2 章 中 曾经 介绍 过 ，TensorFlow 设计 了 数据 Feed 机 制 。 也 就 是 说 计算 程序 


并 不 会 直 ey 而 是 在 声明 过 程 只 做 计算 图 的 构建 。 所 以 , 此 时 并 不 会 触 碰 真 
实 的 数据 ， 而 只 是 通过 placeholder 算 子 声明 一 个 输入 数据 的 占 位 符 ， 在 后 面 真 正 运 


行 计算 时 ， 才 用 数据 蔡 换 占 位 符 。 


声明 占 位 符 placeholder 需要 给 给 定 三 个 参数 ， 分 别 是 输入 数据 的 元 素 类 型 dtype、 
维度 形状 shape 和 占 位 符 名 称 标识 name。TensorFlow 内 置 了 所 有 标准 数据 类 型 ， 包 
括 int16、uint16、int32、uint32、float16 float32, string 等 ， 在 指定 元 素 类 型 时 可 以 
直接 使 用 。 维 度 形状 使 用 数组 指定 。 若 shape 不 指定 ， 默 认 值 为 None， 表示 任意 形 
状 。 需 要 注意 的 是 ， 通 过 mini-batch 批量 训练 是 如 今 常用 的 优化 技巧 ， 通常 能 在 更 短 
时 间 内 得 到 更 好 的 拟 合 效 果 。 所 以 在 定义 输入 形状 时 ， 一 般 将 第 一 个 维度 作为 
mini-batch 维度 ， 而 从 第 二 个 维度 开始 才 是 特征 维度 。 占 位 符 名 称 name 用 于 区 分 计 
算 图 里 的 各 个 节点 , 不 管 在 查找 节点 , 还 是 在 可 视 化 方面 ， 设置 容易 识别 的 名 称 都 非 
常 有 帮助 。 名 称 参数 name 默认 也 为 None ， 系 统 会 自 动 将 节点 设置 为 类 似 
“Placeholder:0” 这 样 的 名 称 。 


本 例 中 ,对 于 模型 来 说 有 两 个 输入 数据 ,一 个 为 特征 数据 X, 由 Sex、Age、Pclass、 
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SibSp, Parch, Fare iX 6 个 字段 的 值 组 成 ， 另 一 个 为 标记 值 y, Hi Deceased, Survived 
两 个 字段 组 成 。 

声明 输入 数据 占 位 符 

shape 参数 的 第 一 个 元 素 为 None， 表 示 可 以 同时 放 入 任意 条 记录 


tf.placeholder (tf.float32, shape= [None, 6]) 


3 
# 
X= 
Y = tf.placeholder (tf.float32, shape= [None, 2]) 


2. 声明 参数 变量 


届 辑 回归 模型 中 包含 两 个 参数 ， 分 别 是 权重 矩阵 Ww 和 偏 置 向 量 bp。TensorFlow 使 
用 变量 (Variable ) 来 存储 和 更 新 这 些 参数 的 值 。 


变量 的 声明 方式 是 直接 定义 tf.Variable0 对 象 。 初 始 化 变量 对 象 有 两 种 方式 ， 一 
种 是 从 protocol buffer 结构 VariableDef 中 反 序 列 化 ， 另 一 种 是 通过 参数 指定 初始 值 。 
最 简单 的 方式 就 是 像 下 面 程序 这 样 ， 为 变量 传 入 初始 值 。 初 始 值 必须 是 一 个 tensor 
WR, 或 是 可 以 通过 convert_to_tensor0 方 法 转换 成 tensor 的 Python 对 象 。 TensorFlow 
提供 了 多 种 构造 随机 tensor 的 方法 ， 可 以 构造 全 零 tensor, 随机 正 态 分 布 tensor 等 。 
定义 变量 会 保留 初始 值 的 维度 形状 。 

值得 注意 的 是 ,变量 Variable 的 构造 函数 同样 也 没有 做 数据 的 初始 化 ,而 是 在 计 
算 图 中 加 入 了 一 个 variable 算 子 和 其 对 应 的 assign 算 子 。 

# 声明 变量 


W tf.Variable (tf. random normal([6, 2]), name=’ weights') 
b tf.Variable(tf.zeros([2]), name-'bias') 


3. 构造 前 向 传播 计算 图 


所 谓 前 向 传播 就 是 网 络 正 向 计算 , 由 输入 计算 出 标签 的 过 程 。 逻辑 回归 的 公式 用 
TensorFlow 表示 只 需要 一 行 代码 : 


y pred = tf.nn.softmax(tf.matmul(input, W) + bias) 


其 中 ，tfmatmul0 是 矩阵 乘法 算 子 ， tf.nn.softmax0) 是 softmax 函数 。 另 外 可 以 看 
到 ， 对 于 偏 置 向 量 bias， 可 以 直接 用 加 号 “+" 完 成 矩阵 相 加 操作 ， 这 与 NumPy 等 库 用 
法 类 似 。TensorFlow 中 的 Tensor 对 象 和 Variable 对 象 都 对 常用 四 则 运算 符号 进行 过 重 
载 ， 运 用 十 分 灵活 。 
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在 计算 图 的 构建 过 程 中 , TensorFlow 会 自 动 推算 每 一 个 节点 的 输入 输出 形状 。 若 
i 无 法 运算 ， 比 如 两 个 行列 数 不 同 的 矩阵 相 加 ， 则 会 直接 报错 。 
| 4， 声 明代 价 函数 

机 器 学 习 算 法 的 优化 需要 靠 代 价 函数 来 评估 优化 方向 。 本 例 的 二 分 类 问题 一 般 使 
用 交叉 ( cross entropy ) 作为 代价 函数 。 


交叉 闹 的 计算 公式 为 ; 
1 ; 
| c= 280) 
| 程序 代码 为 : 
! (FAZER IRAE 
cross entropy = - tf.reduce sum(y * tf.log(y pred * 1e-10), 


reduction indices-1) 
# FERRE AAU ROMA EAE TE 
cost = tf.reduce mean(cross entropy) 
值得 注意 的 是 ， 在 计算 交叉 糖 的 时 候 ， 对 模型 输出 值 y pred 加 上 了 一 个 很 小 的 
误差 值 ( 在 上 面 程序 中 是 le-10 )， 这 是 因为 当 y pred 十 分 接近 真 值 y true 的 时 候 ， 
也 就 是 y pred 的 值 非常 接近 0 或 1 时 ， 计 算 log(0) 会 得 到 负 无 穷 -inf， 从 而 导致 
输出 非法 , 全 部 都 是 nan， 并 进一步 导致 无 法 计算 梯度 ,迭代 陷入 崩溃 。 要 解决 这 个 
问题 有 三 种 办 法 : 
。 在 计算 logO 时 ， 直 接 加 入 一 个 极 小 的 误差 值 ， 使 计算 合法 。 这 样 可 以 避免 计 
算 log(0)， 但 存在 的 问题 是 加 入 误差 后 相当 于 y pred 的 值 会 突破 1。 在 示例 代 
码 中 使 用 了 这 种 方案 ; 
。 ”使 用 clip 函数 , 当 y pred 接近 0 Rt, 将 其 赋值 成 为 极 小 误差 值 。 也 就 是 将 
y_pred 的 取 值 范围 限定 在 [10715, 1] 的 范围 内 ; 
。 HAZIRA nan 值 时 ， 显 式 地 将 cost 设置 为 0。 这 种 方式 回避 了 
log) 函数 计算 的 问题 ， 而 是 在 最 终 的 代价 函数 上 进行 容错 处 理 。 
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5. 加 入 优化 算法 


TensorFlow 内 置 了 多 种 经 典 的 优化 算法 ， 如 随机 梯度 下 降 算 法 ( Stochastic 
Gradient Descent, SGD ) 动量 算法 Momentum ).Adagrad 算法 .ADAM 算法 .RMSProp 
算法 ， 另 外 还 有 在 线 学 习 算法 FTRL。 ERES 自动 构建 梯度 计算 和 反 向 传播 部 
分 的 计算 图 。 


一 般 对 于 优化 算法 ， 最 关键 的 参数 是 学 习 率 ( leaming rate )， 对 于 学 习 率 的 设置 
是 一 门 技术 。 同时, 不 同 优化 算法 在 不 同 问题 上 可 能 会 有 不 同 的 收敛 速度 , 在 解决 实 
际 问题 时 可 以 做 多 种 尝试 。 

# 使 用 随机 梯度 下 降 算法 优化 器 来 最 小 化 代价 ， se 


train | Op 
tf.train. GradientDescentOptimizer(0. 001) .minimize (cost) 


至 此 ， 计 算 图 的 声明 过 程 就 完成 了 。 
3.2.5 构建 训练 迭代 过 程 

完成 了 计算 图 的 定义 ， 再 接 下 来 要 构建 训练 迁 代 。 

在 第 2 章 中 提 到 过 ， 在 TensorFlow 的 设计 中 ， 前 端 编程 语言 要 触发 后 端 执行 引 


擎 开始 计算 ， 必 须 通过 Session 接口 完成 。Session 对 象 负责 将 运行 环境 打包 ， 并 且 
管理 运行 时 需要 处 理 的 变量 、 队列 (queues)、 读 取 器 (readers) 等 资源 。 


需要 特别 说 明 的 是 ， 由 于 Session 中 管理 了 上 下 文 的 各 种 资源 ， 所 以 在 计算 执行 
结束 后 一 定 要 关闭 ,以 释放 对 资源 的 占用 。 一 般 有 两 种 使 用 方式 ， 一 种 是 在 声明 后 手 
动 调用 Session.close0 方 法 来 关闭 ， 一 般 会 在 大 型 应 用 中 使 用 。 另外 一 种 是 更 为 简便 
的 方式 ，Session 类 重 载 了 — enter ) 和 — exit Q 两 个 方法 ， 所 以 可 以 用 Python 
的 with 语句 将 Session 作为 上 下 文 管理 器 ( Context Manager) 来 操作 ， 退出 作用 域 
时 自动 关闭 对 象 。 


Session 启动 后 就 正式 进入 了 训练 过 程 。 首 先 要 做 的 是 使 用 tÉglobal variables | 
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3 Hello TensorFlow 本 


initializer().runQ 方法 初始 化 所 有 的 变量 !。 接 下 来 就 是 用 一 个 循环 将 训练 数据 反复 代 
入 计算 图 来 执行 迭代 。 在 循环 内 ，Session.run(0) 是 触发 后 端 执 行 的 入 口 。 
Session.run() 有 两 个 关键 的 参数 ，fetches 和 feed_dict。 其 中 ，fetches 指定 需要 
被 计算 的 节点 ， 可 以 用 数组 同时 制定 多 个 节点 。 节 点 可 以 是 算 子 op， 比 如 前 文 程序 
中 的 优化 算法 算 子 train op， 也 可 以 是 tensor， 比 如 代表 代价 函数 值 的 coste 执行 会 
从 输入 节点 开始 , 按照 节点 的 依赖 关系 ,也 就 是 有 向 图 的 拓扑 序 , 依 次 计算 目标 节点 
所 在 的 子 图 中 的 所 有 节点 。 计 算 所 需要 的 输入 数据 则 由 feed dict RA. feed dict 需 
要 传 入 一 个 字典 ， 字 典 的 key 是 输入 占 位 符 placeholder, value 为 真实 的 输入 数据 。 


Session.run) 执行 完 计 算 后 ,会 返回 计算 节点 的 结果 。 若 节点 为 算 子 ， 则 没有 返 
回 值 ， 若 节点 是 tensor， 则 返回 当前 的 值 。 比 如 最 常见 的 优化 算 子 和 代价 函数 tensor 
的 组 合 , 而 优化 算 子 的 执行 结果 其 实 是 通过 梯度 下 降 算法 更 新 所 有 参数 变量 , 不 需要 
返回 值 ， 而 在 前 向 传播 计算 得 到 的 代价 值 将 会 返回 。 


通过 将 每 一 轮 迭代 的 代价 值 打 印 出 来 ， 可 以 监控 训练 的 收敛 情况 。 





with tf.Session() as sess: 
# 初始 化 所 有 变量 ， 必 须 最 先 执行 


tf. global variables initializer( () .run() 


# AF AUER, R10 轮 
for epoch in range(10): 
total_loss = 0. 
for i in range(len(X_train)): 
feed = (X: [X_train[i]], y true: [y train(ill) 
4 通过 session. run 接口 触发 执行 


, loss = sess.run([train op, cost], feed dict-feed) 


total loss += loss 
print('Epoch: %04d, total loss=%.9f' % (epoch + 1, 


total_loss)) 
print 'Training complete!' 


JAERI, AMMER RHR RRA. 
# 评估 校 验 数据 集 上 的 准确 率 





11 Hi: TensorFlow 0.12.0 之 前 的 版 本 使 用 tf.initialize_all_variables().run(), 在 最 新 版 本 代码 中 
标明 该 接口 将 于 2017 年 3 月 2 日 后 正式 废弃 。 
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Pred = sess.run(y pred, feed dict-(X: X_val}) 

correct = np.equal(np.argmax (pred, 1), np.argmax(y val, 1)) 
accuracy = np.mean(correct.astype (np.float32)) 

print ("Accuracy on validation set: $.9f" % accuracy) 


从 上 面 代码 中 可 以 看 到 ， 若 只 计算 模型 预测 值 y pred， 则 只 需要 传 入 占 位 符 X 
所 对 应 的 数据 即 可 , 不 需要 指定 另 一 个 占 位 符 y。TensorFlow 在 计算 时 会 进行 图 的 前 
枝 优 化 ， 只 会 计算 fetches 指定 的 子 图 ， 因 此 也 只 需要 代入 子 图 包含 的 占 位 符 。 在 这 
一 点 上 , TensorFlow 保证 了 编程 的 灵活 性 和 执行 效率 , 在 使 用 时 不 用 担心 会 执行 不 必 
要 的 计算 。 


3.2.6 ”执行 训练 


将 代码 保存 为 "01 tensorflow basic.py" 文件 ， 通 过 命令 行 运行 程序 即 可 看 到 训 
练 过 程 中 的 输出 。 


$ python 01 tensorflow basic.py 

Epoch: 0001, total 10ss-5827.214925724 
Epoch: 0002, total 10ss-1866.215580815 
Epoch: 0003, total 10ss-1416.462430373 
Epoch: 0004, total 10ss-1274.361242647 
Epoch: 0005, total 10ss-1287.683731217 
Epoch: 0006, total 10ss-1207.134947834 
Epoch: 0007, total 10ss-1191.541045362 
Epoch: 0008, total 10ss-1180.067145067 
Epoch: 0009, total 10ss-1169.640558892 
Epoch: 0010, total 10ss-1160.065555358 
Training complete! 

Accuracy on validation set: 0.586592197 


可 以 看 到 ， 通 过 10 轮 和 迭代 的 训练 ， 代 价值 从 5827 FEE 1160， 这 代表 模型 对 
训练 数据 的 拟 合 越 来 越 好 ， 误 差 越 来 越 小 。 同 时 还 可 以 看 到 ， 在 验证 数据 集 上 ， 本 次 
训练 的 预测 正确 率 为 58%。 


在 执行 程序 的 时 候 ， 可 能 会 遇 到 的 最 常见 的 错误 有 如 下 几 种 ; 
。 ”变量 未 初始 化 
开启 session 后 的 第 一 步 就 需要 初始 化 所 有 变量 ， 否 则 在 执行 其 他 操作 时 将 会 产 
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生 如 下 错误 : 


FailedPreconditionError: Attempting to use uninitialized value 
Variable 


解决 方法 是 在 Session 对 象 初始 化 后 ， 紧 接着 执行 tf.global_variables_ 
initializer().run() 方法 。 

。 ”真实 数据 与 占 位 符 形状 不 匹配 

如 果 在 执行 时 出 现 类 似 下 面 这 样 的 错误 : 


ValueError: Cannot feed value of shape (2,) for Tensor 
u'Placeholder 1:0', which has shape '(?, 2)' 


那 一 般 是 从 feed dict 代入 的 真实 数据 的 数组 形状 与 占 位 符 不 匹配 导致 的 。 在 确 
认 传 入 数据 无 误 的 情况 下 ， 可 以 使 用 numpy.reshape() 将 数据 调整 成 需要 的 形状 后 再 
代入 计算 。 
e Session 已 关闭 
若 在 Session 作用 域 之 外 执行 运算 ， 就 会 报 出 如 下 错误 : 
RuntimeError: Attempted to use a closed Session. 
这 时 候 就 要 检查 确认 Session.run0 语 句 是 在 Session 对 象 生命 周期 作用 域内 执行 
的 。 
3.27 ”存储 和 加 载 模 型 参数 
训练 是 一 件 十 分 费时 耗 力 的 事情 ， 如 果 每 次 预测 之 前 都 还 要 训练 , 那 显然 是 不 现 
实 的 。 正确 的 姿势 是 在 训练 得 到 一 组 优秀 的 参数 时 将 其 保存 下 来 ,预测 时 直接 加 载 到 
模型 中 使 用 。TensorFlow 当然 也 满足 了 这 一 需求 ， 使 用 的 是 tf.train.Saver 和 checkpoint 
机 制 。 
变量 的 存储 和 读 取 是 通过 tf.train.Saver 类 来 完成 的 。Saver 对 象 在 初始 化 时 ， 为 
计算 图 加 入 了 用 于 存储 和 加 载 变量 的 算 子 ， 并 可 以 通过 参数 指定 是 要 存储 哪些 变量 。 
Saver 对 象 的 save0 和 restore() 方 法 是 触发 图 中 算 子 的 入 口 。 
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Checkpoints 是 用 于 存储 变量 的 二 进 制 文件 ， 在 其 内 部 使 用 字典 结构 存储 变量 ， 
键 为 变量 名 字 ， 即 Variable.name 成 员 的 值 ， 值 为 变量 的 tensor 值 。TesnorFlow 代码 
中 提供 了 一 个 工具 程序 可 以 用 于 查看 checkpoint 文件 的 内 容 ， 代 码 在 
tensorflow/python/tools/inspect_checkpoint.py。 


Saver 最 简单 的 用 法 就 如 下 面 代码 所 示 。 


vl = tf.Variable(tf.zeros( [200])) 
saver = tf.train.Saver() 

# 在 Saver 之 后 声明 的 变量 将 不 会 被 Saver 处 理 
v2 = tf.Variable(tf.ones[100])) 


+ WA Session 创建 参数 存档 
with tf.Session() as sessl: 


# 完成 模型 训练 过 程 
# 持久 化 存储 变量 


save path = saver.save(sessl, "model.ckpt") 


# 在 新 Session 中 加 载 存档 
with tf.Session() as sess2: 
# 加 载 变量 
Saver.restore(sess2, "model.ckpt") 


# 判别 预测 ， 或 继续 训练 


需要 注意 的 是 ，Saver 对 象 在 初始 化 时 ， 若 不 指定 变量 列表 ， 默 认 只 会 自动 收集 
其 声明 之 前 的 所 有 变量 ,在 Saver 对 象 初始 化 后 的 所 有 变量 将 不 被 记录 ， 上 面 代 码 中 
的 v2 变量 就 不 会 在 存 取 的 范围 内 。 这样 的 机 制 在 迁移 学 习 的 应 用 中 非常 有 用 , 例如 
要 将 一 个 基于 ImageNet 数据 训练 好 的 CNN 应 用 在 新 类 型 图 片 识别 上 ,只 需要 加 载 模 
型 卷 积 部 分 的 参数 ， 重 新 训练 最 后 的 全 连接 网 络 即 可 。 


在 上 面 的 程序 示例 中 , 由 Saversave() 触 发 的 存储 操作 会 生成 4 个 文件 2。 第 一 个 
是 名 为 “model.ckpt” 的 文件 ， 这 个 文件 是 真实 存储 变量 及 其 取 值 的 文件 。 第 二 个 是 
名 为 “model.ckpt.meta” 的 描述 文件 ， 在 这 个 文件 存储 的 是 MetaGraphDef 结构 的 对 


12 TensorFlow 0.12.0 版 本 之 后 ， 对 于 变量 存储 的 定义 升级 为 V2 版 本 。 此 前 的 版 本 不 会 生成 
“.index" 为 后 组 的 文件 ， 只 有 其 他 三 个 。 
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| 象 经 过 二 进 制 序列 化 后 的 内 容 。MetaGraphDef 结构 由 Protocol buffer 定义 ， 其 中 包含 


了 凤 个 计算 图 的 描述 、 各 个 变量 定义 的 声明 、 输 入 管道 的 形式 ， 以 及 其 他 相关 信息 。 
meta 文件 可 以 在 没有 计算 图 声明 代码 的 情况 载 入 模型 ， 而 若 在 应 用 时 还 有 原始 的 
Python 程序 代码 ， 程 序 就 已 经 可 以 重新 构建 计算 图 的 基本 信息 ， 则 加 载 只 需要 
“model.ckpt” 一 个 文件 即 可 。 第 三 个 文件 是 以 “modelckptindex 为 名 称 的 文件 , 存 
储 了 变量 在 checkpoint 文件 中 的 位 置 索引 。 最 后 一 个 是 名 为 “checkpoint” 的 文件 ， 
这 个 文件 中 存储 了 最 新 存档 的 文件 路 径 。 


模型 存档 有 两 种 存 取 模 式 , 除了 上 面 示例 展示 的 一 次 性 存储 之 外 ， 还 有 一 种 方式 
是 通过 引入 迭代 计数 器 的 方式 , 按 训练 迭代 轮 次 存储 。 使 用 这 种 方式 时 ， 需要 在 save() 
方法 中 指定 当前 迭代 轮 次 ， 然 后 系统 会 自 动 生成 带 有 测试 的 轮 次 和 版 本 号 的 
checkpoint 文件 。 基 本 使 用 方式 如 下 面 代码 所 示 : 

with tf.Session() as sess: 


for step in range(max step): 
# 执行 迭代 计算 

# 下 面 命令 将 生成 以 'my-model.ckpt-???' 为 文件 名 的 checkpoint 

saver.save(sess, 'my-model.ckpt', global step-step) 

BUT — esi BA HA checkpoint， 在 执行 上 万 次 迭代 的 训练 过 程 中 很 可 
能 把 硬盘 存储 空间 耗 尽 ,为 了 防止 这 种 情况 发 生 , Saver 提供 了 几 种 有 效 的 防范 措施 。 
第 一 种 是 设置 max to keep 参数 ， 此 参数 指定 存储 操作 以 更 迭 的 方式 只 保留 最 后 几 
个 版 本 的 checkpoint。 默 认 情况 下 ， 只 保留 最 后 5 个 版 本 的 存档 。 第 二 种 是 设置 
keep. checkpoint, every, n hours 参数 ， 这 种 方式 以 时 间 为 单位 , 每 n 个 小 时 存储 一 个 
checkpoint。 该 参数 默认 值 是 10000， 也 就 是 每 1 万 小 时 生成 一 个 checkpoint。 


对 于 带 有 版 本 的 checkpoint 的 加 载 有 两 种 方法 ,一 种 是 与 之 前 的 例子 一 样 ,直接 
指定 名 称 前 级 ,加 载 一 个 特定 版 本 的 checkpoint。 另 一 种 方式 是 利用 名 为 “checkpoint" 
的 文件 ， 找 到 最 新 版 本 存档 。 


& M 'checkpoint' 文件 中 读 出 最 新 存档 的 路 径 
ckpt = tf.train.get checkpoint state (ckpt dir) 
if ckpt and ckpt.model checkpoint path: 

# 找到 合法 存档 ， 加 载 之 


saver.restore(sess, ckpt.model checkpoint path) 
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3.2.8 ”预测 测试 数据 结果 

作为 最 终 的 检验 ， 训 练 完 的 模型 需要 对 测试 数据 集 进行 预测 ， 并 提交 至 Kaggle 
平台 验证 预测 准确 率 。 

在 前 文中 介绍 了 模型 的 搭建 、 训 练 和 存档 的 过 程 , 最 后 一 步 的 预测 相对 之 前 就 比 
较 容易 ， 简 单 来 说 就 是 加 载 测试 数据 后 执行 一 遍 正 向 传播 计算 即 可 。 

# 读 入 测试 数据 集 并 完成 预 处 理 


testdata = pd.read csv('data/test.csv') 
testdata - testdata.fillna(0) 


testdata['Sex'] = testdata['Sex'].apply(lambda s: 1 if s == 'male' 
else 0) 

X test = testdata[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 
'Fare!']] 


8 开启 session 进行 预测 
with tf.Session() as sess: 

# 加 载 模型 存档 

Saver.restore(sess, 'model.ckpt') 
# 正 向 传播 计算 


predictions = np.argmax(sess.run(y pred, feed dict-(X: X test]), 
1) 


# 构建 提交 结果 的 数据 结构 ， 并 将 结果 存储 为 csv 文件 
submission = pd.DataFrame ({ 
"PassengerId": testdata["PassengerId"], 
"Survived": predictions 


) 


submission.to csv("titanic-submission.csv", index-False) 

从 程序 可 以 看 到 , 执行 正 向 传播 计算 , 不 需要 代入 标签 数据 , 仅 提供 特征 数据 即 
可 。 

最 终 的 结果 按 题目 要 求 存储 为 csv 格式 。 在 kaggle 提交 后 , 可 以 看 到 平台 给 出 的 
成 绩 : 
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Public 
Submission Files Score Selected? 
Mon, 21 Nov 2016 07:37:41 titanic-submission.csv 0.72727 ^7 
Edit description 
Mon, 21 Nov 2016 07:20:48 titanic-submission.csv 0.47368 © 
Edit description 


图 3-3 Titanic 提交 结果 展示 


在 此 作者 提交 了 两 次 , 第 一 次 尝试 以 随机 分 类 为 基线 , 即 对 于 每 个 样本 都 随机 给 
出 0 或 1 的 判断 ， 最终 得 到 了 47% 的 准确 率 ， 基 本 符合 概率 分 布 。 第 二 次 尝试 是 在 
训练 逻辑 回归 分 类 器 10000 次 迭代 之 后 的 结果 , 可 以 看 到 准确 率 有 了 明显 的 提升 , 达 
到 了 72%， 也 就 是 对 于 超过 三 分 之 二 的 结果 预测 正确 。 考 虑 到 Titanic 问题 本 身 的 数 
据 样本 实在 太 少 , 逻辑 回归 模型 又 是 最 简单 的 模型 , 得 到 这 样 的 准确 率 可 以 说 已 经 是 
不 错 的 结果 了 。 


3.8 ”数据 挖掘 的 技巧 


在 前 一 节 我 们 使 用 TensorFlow 实现 了 简单 的 逻辑 回归 分 类 器 ， 并 且 取得 了 约 超 
过 七 成 的 分 类 准确 率 。 通 过 这 个 结果 我 们 可 以 看 到 ， 虽 然 本 题 是 一 个 简单 的 二 分 类 问 
题 , 但 是 由 于 数据 样本 相对 较 少 ,而 且 问题 本 身受 随机 性 的 影响 比较 大 , 所 以 直接 简 
单 粗 暴 地 使 用 分 类 器 , 结果 还 有 很 大 的 提高 空间 。 在 这 一 节 中 ,我们 提出 一 些 优化 方 
案 ， 对 提高 预测 准确 率 会 有 一 定 的 帮助 。 


数据 挖掘 (Data Mining) 是 要 从 大 量 看 似 无 序 的 数据 中 通过 算法 找到 其 中 隐藏 
的 信息 和 模式 的 过 程 ,主要 包括 有 监督 的 分 类 、 预 测 和 无 监督 的 聚 类 、 相 关 性 分 组 等 
方法 , 比较 经 典 的 应 用 场景 如 垃圾 邮件 检测 ( spam email detection ) “啤酒 和 尿 不 湿 ” 
故事 等 。 

一 般 来 说 , 解决 数据 挖掘 类 的 问题 没有 一 步 到 位 的 方法 ， 都 要 经 过 不 断 尝 试 、 反 
复 分 析 优化 的 过 程 。 大 致 来 说 ， 遵 循 下 面 这 些 “套路 ": 首先 通过 数据 可 视 化， 利用 
图 形 的 方式 更 直观 地 感受 数据 , 建立 起 足够 的 先 验 经 验 , 然后 利用 特征 工程 方法 筛选 
相关 度 最 高 的 特征 组 合 , 最 后 将 特征 代入 多 种 分 类 器 进行 试验 , 检验 不 同方 法 在 同一 
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问题 上 的 表现 。 
3.3.1 数据 可 视 化 


面 对 庞 大 的 数据 , 仅仅 依靠 人 脑 很 难 建立 起 对 数据 的 充分 认识 , 使 用 工具 以 图 形 
化 的 形式 将 数据 展示 出 来 ， 是 必 不 可 少 的 手段 。 


Titanic 问题 的 样本 数据 只 有 不 到 1000 条 ， 都 有 哪些 可 视 化 手段 呢 ? 下 面 这 几 种 
方式 是 Kaggle 讨论 组 中 给 出 的 方案 ， 可 以 作为 参考 。 


3-4 是 通过 性 别 、 客 舱 等 级 和 是 否 有 家 人 陪伴 三 个 维度 来 考察 幸存 率 的 。 从 这 
样 的 图 示 中 可 以 分 析出 如 下 几 个 结论 ; 


1， 同 等 客舱 的 乘客 中 ， 女 性 乘客 的 幸存 率 普遍 高 于 男性 乘客 。 并 且 一 等 、 二 等 
客舱 的 女性 乘客 幸存 率 都 非常 高 ; 


2， 一 等 、 二 等 客舱 的 乘客 中 ， 有 家 人 陪伴 的 会 比 独自 乘 船 的 存活 率 高 ; 


























alone wit family sione with family 
traveling 


3-4 Titanic 数据 中 是 否 有 家 人 陪伴 的 幸存 率 
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3， 三 等 客舱 中 ， 独 自 乘 向 的 乘客 比 有 亲属 的 幸存 率 高 。 其 中 独自 乘 船 的 女性 乘 
客 有 超过 50% 幸 存 了 下 来 。 


4， 三 等 客舱 的 男性 幸存 概率 只 有 20% 左 右 。 
有 了 这 样 的 分 析 结果 , 相信 如 果 仅 以 创建 规则 的 方式 来 判断 乘客 的 存活 率 , 也 能 
有 不 错 的 表现 。 


另 一 种 有 趣 的 图 形 化 方式 是 根据 姓名 , 画 出 乘客 的 家 族 结构 。 如 图 3-5 就 展示 了 
一 等 舱 乘客 的 家 庭 关 系 。 可 以 看 到 一 等 舱 乘 客 基本 都 是 家 庭 结伴 而 行 的”。 


1" Class Families 


o Female * Survived a Unkown 
o Male a Died 


o2 
"Vr Stt EST. 
人 


ee 和 ee 和 ee4oe4oe4e4ef 
oo eooo oo 9-9 4-9 4-9 4-9 € oe? 


eo oo oo oeoo 4-9 4-0 4-9 4-9 9-9] 





图 3-5 一 等 舱 乘 客 的 家 族 关 系 
再 有 一 种 比较 有 价值 的 分 析 是 通过 图 形 的 方法 ， 查 看 各 个 数据 字段 的 重要 程度 。 
3-6 展示 了 对 于 随机 森林 算法 而 言 , 各 个 数据 字段 的 重要 程度 , 及 重要 度 的 标准 差 。 
可 以 看 到 ， 性 别 一 项 的 重要 度 最 高 ， 其 次 是 年 龄 。 
通过 这 几 种 可 视 化 分 析 的 方法 ,从 数据 上 验证 了 最 初 分 析 时 提出 的 一 些 基 础 先 验 
经 验 , 比如 女性 和 儿童 的 幸存 率 高 ， 有 身份 的 乘客 幸存 率 高 等 , 对 于 深入 理解 问题 有 
极 大 帮助 。 





13 全 部 乘客 的 家 族 结构 示意 图 可 查看 https://www.kaggle.com/c/titanic/prospector#208。 


53 4 
ww ai bbc. com [1E] BLU D] 


B 深度 学 习 原 理 与 TensorFlow 实践 





Pass mame ticket cabin gbsp parch embarked 


图 3-6 特征 的 重要 程度 分 析 
3.3.2 ”特征 工程 


对 于 传统 机 器 学 习 领 域 来 说 ,业界 流行 的 说 法 是 数据 和 特征 决定 了 机 器 学 习 的 上 
限 ， 而 模型 和 算法 只 是 逼近 这 个 上 限 的 方法 。 所 以 若 要 追求 更 高 的 预测 准确 度 , 特征 
工程 是 必 不 可 少 的 步骤 。 


特征 工程 是 将 原始 数据 的 属性 转换 为 特征 的 过 程 。 以 Titanic 数据 为 例 ， 属 性 是 
指数 据 的 各 个 维度 ， 比 如 乘客 的 性 别 、 年 龄 、 客 舱 等 级 ， 可 以 看 作 一 组 基础 特征 ， 而 
例如 “是 否 为 一 等 客舱 的 女性 乘客 ”或 “是 否 是 15 岁 以 下 的 儿童 ”之 类 的 能 够 更 好 
体现 数据 本 质 的 表达 方式 , 则 是 特征 工程 希望 能 得 到 的 。 在 数据 建 模 时 ， 如 果 对 原始 
数据 的 所 有 属性 进行 学 习 , 由 于 噪声 干扰 较 大 , 可 能 并 不 能 很 好 地 分 析出 数据 的 潜在 
趋势 , 拟 合 速度 惕 。 而 特征 工程 通过 对 数据 进行 重组 , 可 以 帮助 算法 模型 减少 噪声 的 
干扰 ,得 到 更 好 的 拟 合 效果 。 事实 上 , 一 组 优秀 的 特征 甚至 能 够 帮助 我 们 仅 用 简单 的 
模型 就 达到 很 好 的 效果 。 

在 上 一 节 的 实战 中 , 我 们 只 用 到 了 6 个 变量 字段 , 下 面 就 介绍 一 下 从 其 他 字段 中 
挖掘 有 用 信息 的 方法 。 

数据 清洗 

数据 清洗 的 目的 是 处 理 异常 样本 ， 如 样本 存在 字段 缺失 ， 数 据 格式 错误 等 问题 ， 
例如 Titanic 数据 中 乘客 年 龄 字段 就 存在 数据 缺失 的 情况 。 针 对 这 类 样本 有 以 下 4 种 
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常用 的 处 理 方式 

1， 直 接 丢弃 整 行 样本 数据 ， 在 样本 数量 足够 的 时 候 是 优先 的 选择 ; 

2， 当 所 有 样本 中 某 一 字段 缺失 非常 严重 的 时 候 ， 可 以 考虑 丢弃 整 列 字段 ; 

3， 将 缺失 字段 填充 为 默认 值 ， 如 前 面 处 理 年 龄 字段 就 是 补 成 默认 值 0， 相 当 于 
作为 单独 一 种 分 类 ; 

4， 将 缺失 字段 填充 为 整 列 数据 的 平均 值 ， 这 种 做 法 相当 于 弱化 了 缺失 项 对 其 他 
特征 的 影响 。 

Titanic 数据 就 属于 样本 数量 非常 少 的 情况 , 训练 数据 只 有 891 条 , 所 以 选择 补 齐 
字段 是 更 合适 的 做 法 。 

通过 表 3-2 可 以 更 清楚 地 看 到 , 在 样本 数据 中 ,年 龄 小 于 15 岁 的 儿童 有 接近 60% 
的 幸存 率 ， 远 超 成 人 的 38%。 而 年 龄 缺失 的 人 群 中 ， 幸 存 率 更 是 低 到 不 足 三 成 。 由 
此 可 以 作出 粗略 的 推断 是 ， 年 龄 字段 缺失 的 样本 应 该 属于 成 人 ， 以 年 龄 均值 29.6 岁 
作为 标准 补 全 数据 即 可 。 


表 3-2 小孩 与 成 人 的 死亡 率 对 比 


小 于 15 岁 


29.4% 





用 程序 实现 补 全 年 龄 数据 可 以 利用 DataFrame 强大 的 编辑 能 力 , 两 行 代码 即 可 完 
成 。 

mean age = data["Age"].mean() # 29.69 

data['Age'][data.Age.isnull()] = mean age 


数据 预 处 理 


数据 预 处 理 是 通过 数据 进行 离散 化 、 标 准 化 、 归 一 化 、 数 值 变换 等 方法 , 使 原本 
凌乱 的 数据 更 容易 被 算法 处 理 。 
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一 般 来 说 , 枚 举 类 型 或 者 取 值 范围 是 有 限 集合 的 字符 串 类 型 的 字段 , 都 会 使 用 离 
散 化 方法 转换 成 数值 类 型 。 方 法 也 非常 简单 , 只 要 构建 一 个 枚 举 取 值 到 数值 的 映射 表 
即 可 。 如 前 面 提 到 过 的 Titanic 数据 中 的 性 别 字段 就 使 用 离散 化 的 方法 进行 处 理 ， 从 
两 个 取 值 “male” 和 “female” 分 别 转换 为 数字 1 和 0。 另 一 个 比较 有 趣 的 信息 可 以 
使 用 离散 化 处 理 ， 那 就 是 乘客 的 头衔 Title )。 乘 客 的 头衔 并 不 是 原始 数据 中 已 经 单 
独 存在 的 属性 ,而 是 隐藏 在 乘客 姓名 中 。 乘 客 姓名 一 般 都 会 带 有 “Mr”“Mrs. “Miss.” 
之 类 的 称谓 ， 甚 至 还 有 “Countess”"、“Don”、“Dr” 等 之 类 的 尊称 。 称 谓 的 不 同 代表 
了 乘客 身份 上 的 差别 , 带 有 尊称 头衔 的 乘客 一 定 是 贵族 , 乘坐 一 等 客舱 ,有 超 高 幸存 
的 概率 。 因 此 ， 可 以 在 解析 姓名 得 到 头衔 后 , 标记 该 样本 是 否 为 贵族 ， 作 为 一 个 备 选 
特征 。 


def get title (name): 
if pd.isnull (name): 
return 'Null' 
title search = re.search('([A-Za-z]+)\.', name) 
if title search: 
return title search.group(1).1lower() 
else: 
return 'None' 


titles = {'mr': 1, 
'mrs': 2, 'mme': 2, 
'ms': 3, 'miss': 3, 'mlle': 3, 
'don': 4, 'sir': 4, 'jonkheer': 4, 
'major': 4, 'col': 4, 'dr': 4, 'master': 4, 'capt': 4, 
'dona': 5, 'lady': 5, 'countess': 5, 
'rev': 7,] 
data['Title'] = data['Name'].apply (lambda name: 
titles.get (get_title (name) ) ) 
data['Honor'] = data['Title'].apply( 
lambda title: 1 if title == 4 or title == 5 else 0) 


对 于 定量 的 数值 型 特征 而 言 , 标准 化 是 将 整 列 数据 按 比 例 缩放 , 使 之 落 在 一 个 比 
较 小 的 区 间 内 ， 比 如 将 年 龄 从 [0, 100] 的 区 间 等 比 缩小 到 [0, 1] 区 间 中 。 还 可 以 同时 
对 定量 特征 进行 二 值 化 处 理 ， 比 如 以 15 岁 为 羡 值 ， 添 加 是 否 是 儿童 的 标记 特征 。 


Titanic 数据 的 一 个 突出 的 特点 就 是 数据 量 实在 比较 少 ,在 没 办 法 取得 更 多 数据 的 
情况 下 , 可 以 使 用 采样 的 方式 随机 增加 一 些 数 据 。 相 比 于 直接 增加 训练 迭代 次 数 , 随 
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机 复制 样本 更 不 容易 造成 过 拟 合 。 


在 经 过 各 种 变换 和 处 理 后 , 我 们 将 数据 原本 的 几 个 属性 ， 增加 到 了 几 十 个 特征 组 
合 。 为 了 更 好 地 提高 计算 效率 ,可 能 需要 通过 降 维 的 方式 ， 挑选 对 于 分 类 结果 区 分 度 
最 大 的 一 些 特 征 组 合 。 


下 面 列举 的 是 一 些 最 常用 的 方法 : 

1， 根 据 阔 值 过 滤 掉 方差 小 的 变量 ; 

2， 通 过 计算 变量 与 标签 的 相关 系数 ， 留 下 相关 性 高 的 特征 ; 

， 根 据 决策 树 或 随机 森林 ， 选 择 重 要 程度 高 的 特征 ; 

4、 利 用 PCA 等 算法 ， 对 数据 进行 变换 ， 选 择 区 分 度 最 高 的 特征 组 合 。 


—— 


:—€————————— 


特征 选择 的 方法 ， 大 部 分 都 在 skleam 库 中 有 对 应 的 实现 ， 在 数据 量 比较 小 的 情 
| 况 下 可 以 直接 使 用 。 
| 特征 工程 在 传统 机 器 学 习 研究 中 是 公认 的 极其 重要 的 部 分 。 然 而 , 手工 的 方式 组 
| esee dE, EE Titanic 这 种 相对 简单 、 特 征 维度 较 少 的 问题 上 还 能 做 到 不 错 的 程 
度 , 但 是 在 更 复杂 的 更 高 维 的 问题 上 就 会 超出 人 类 大 脑 能 处 理 的 极限 。 以 图 像 识 别 问 
| 题 为 例 , 虽然 对 于 人 类 来 说 , 一 个 2 岁 的 小 朋友 都 能 轻易 而 准确 地 在 照片 中 识别 出 一 
j 只 猫 , 但 是 很 难 用 形式 化 的 方法 向 计算 机 描述 猫 到 底 符合 什么 样 的 特征 。 所 以 , 深度 
| 学 习 之 所 以 强大 ,就 是 它 可 以 通过 大 数据 自动 学 习 和 提取 出 计算 机 才能 看 懂 的 特征 集 
1 合 。 我 们 在 后 面 的 章节 中 会 详细 介绍 面向 图 像 和 文字 的 深度 学 习 算法 。 
3.3.3 ”多 种 算法 模型 

分 类 问题 是 机 器 学 习 中 的 基本 问题 , 在 经 过 了 几 十 年 的 研究 后 , 已 经 发 展 出 了 多 


种 分 类 算法 ， 如 Naive Bayes、 线 性 回归 、 决 策 树 、 逻 辑 回 归 、KNN、SVM、 神经 网 
络 、 随 机 森林 等 ， 这 些 算法 都 能 够 应 用 于 Titanic 问题 。 


其 实在 选择 算法 模型 的 时 候 ， 并 不 一 定 是 越 复杂 的 模型 越 好 。 简单 模型 拟 合 能 力 
弱 , 但 收敛 速度 快 ,并 且 不 易 发 生 过 拟 合 ， 而 复杂 的 模型 虽然 有 着 更 灵活 的 拟 合 能 力 ， 
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但 当 数 据 量 不 足 时 更 容易 发 生 过 拟 合 的 情况 。Titanic 题目 就 是 典型 的 数据 不 足 的 例子 。 
多 次 尝试 和 “用 数据 说 话 "， 是 最 好 的 途径 。 

对 于 Titanic 这 一 问题 来 说 ， 由 于 数据 量 实在 是 非常 少 ， 而 且 本 身 存在 比较 大 的 
随机 性 ， 记 以 在 没有 人 为 干预 的 情况 下 ， 一 般 能 做 到 79% 以 上 准确 率 ， 就 已 经 是 非 
常 不 错 的 成 绩 了 。 对 于 个 别 专家 ， 使 用 机 器 学 习 算法 最 多 也 只 能 做 到 85% 左 右 的 预 
测 准确 率 ， 可 以 以 这 一 标准 作为 优化 的 最 高 目标 ?4。 


3.4 TensorBoard 可 视 化 


从 工程 实践 角度 来 说 ,往往 逻辑 越 复杂 的 时 候 ， 代 码 写 得 就 越 长 ， 其 中 产生 bug 
的 概率 就 越 高 ， 所 以 通常 以 “ 干 行 代码 bug 率 ”这 一 指标 来 衡量 程序 员 的 专业 程度 。 
一 般 使 用 TensorFlow 的 场景 是 做 深度 学 习 算法 的 开发 和 应 用 ， 而 深度 学 习 算法 大 多 
是 非常 复杂 又 难以 理解 的 , 往往 涉及 许多 生 涩 难 懂 的 数学 公式 , 这 就 使 得 开发 难度 变 
得 很 高 。 不 仅 如 此 ， 机 器 学 习 算 法 普遍 是 以 概率 为 基础 的 ， 存 在 一 些 不 确定 性 ， 所 以 
每 一 次 训练 的 结果 都 可 能 存在 一 定 的 波动 。 当 结果 与 预期 存在 一 定 偏差 的 时 候 , 往往 
不 能 立刻 定位 是 程序 出 错 还 是 由 于 算法 本 身 的 随机 性 导致 的 , 甚至 有 些 错误 代码 还 会 
引发 正则 化 的 效果 ， 导 致 无 法 通过 输出 判断 程序 是 否 有 bug， 这 就 进一步 增 大 了 程序 
调试 的 难度 。 值 得 庆幸 的 是 ，TensorFlow 系统 的 开发 者 们 也 希望 解决 这 个 问题 。 现 在 
他 们 可 以 借助 TensorBoard 这 一 强大 的 可 视 化 工具 来 帮助 理解 复杂 的 模型 和 检查 实现 
中 的 错误 。 相 比 其 他 深度 学 习 系 统 而 言 , TensorFlow 在 这 一 方面 做 得 最 为 先进 和 人 性 
化 。 


目前 TensorBoard 可 以 展示 几 种 数据 : 标量 指标 、 图 片 、 音 频 、 计算 图 的 有 向 图 、 
参数 变量 的 分 布 和 直方 图 , 还 有 最 新 添加 的 画 出 模型 的 计算 图 的 图 形 , 可 以 用 曲线 图 
的 方式 显示 损失 代价 等 量化 指标 的 变化 过 程 ， 还 可 以 展示 必要 的 图 片 和 音频 数据 。 


3.4.1 记录 事件 数据 
TensorBoard 的 工作 方式 是 启动 一 个 Web 服务 , 该 服务 进程 从 TensorFlow 程序 执 





14 Kaggle 上 Titanic 问题 中 ,高 于 85% 准 确 率 的 提交 可 以 认为 是 经 过 其 他 人 工 方法 矫正 过 的 结 
R, BFR. 
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行 所 得 的 事件 日 志文 件 (event files ) 中 读 取 概 要 ( summary ) 数据 ， 然 后 将 数据 在 网 
页 中 绘制 成 可 视 化 的 图 表 。 概 要 数据 主要 包括 以 下 几 种 类 别 : 


1， 标 量 数据 ， 如 准确 率 、 代 价 损失 值 ， 使 用 t.summary.scalar AIRF 

2. 参数 数据 , 如 参数 矩阵 weights, 偏 置 矩 阵 bias, 一 般 使 用 tf.summary.histogram 
记录 ; 

3， 图 像 数据 ， 用 tfsummary.image 加 入 记录 算 子 ; 

4， 音 频数 据 ， 用 tfsummary.audio 加 入 记录 算 子 ; 

5， 计 算 图 结构 ， 在 定义 tf.summary.FileWriter 对 象 时 自动 记录 。 


与 其 他 算 子 一 样 , 记录 概要 的 节点 由 于 没有 被 任何 计算 节点 所 依赖 , 所 以 并 不 会 
自动 执行 ， 需 要 手动 通过 Session.rmun(0) 接 口 触发 。 为 了 写 起 来 更 简便 ， 
tfsummary.merge_all 可 以 将 所 有 概要 操作 合并 成 一 个 算 子 ， 其 执行 的 结果 是 经 过 
protocol buffer 序列 化 后 的 tf.Summary 对 象 。 


完整 的 代码 示例 如 下 : 


with tf.name scope('input'): 

# create symbolic variables 

X = tf.placeholder(tf.float32, shape-[None, 6]) 
y true - tf.placeholder (tf.float32, shape-[None, 2]) 


with tf.name scope('classifier'): 
# 分 类 器 计算 图 
weights = tf.Variable(tf.random normal([6, 2])) 
bias = tf.Variable(tf.zeros([2])) 
y pred = tf.nn.softmax(tf.matmul(X, weights) * bias) 
# 添加 直方 图 参数 概要 记录 算 子 
tf.summary.histogram('weights', weights) 
tf.summary.histogram('bias', bias) 


with tf.name scope('cost'): 
cross entropy = - tf.reduce sum(y true * t£.log(y pred + 1e-10), 
reduction indices-1) 
cost = tf.reduce mean(cross entropy) 


# 添加 损失 代价 标量 概要 
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tf.summary.scalar('loss', cost) 
train op = tf.train.GradientDescentOptimizer (0.001) .minimize (cost) 


with tf.name scope('accuracy!): 
Correct pred = tf.equal(tf.argmax(y true, 1), tf.argmax(y pred, 


acc op = tf.reduce mean(tf.cast(correct pred, tf.float32)) 
# 添加 准确 率 标 量 概要 


tf.summary.scalar('accuracy', acc op) 


with tf.Session() as sess: 

# 创建 概要 写 入 操作 

# TensorBoard 可 通过 命令 'tensorboard --logdir=. /logs' KA 
writer = tf.summary.FileWriter('./logs', sess.graph) 


# 方便 起 见 ， 合 并 所 有 概要 算 子 


merged = tf.summary.merge all() 


for step in range (max step): 
for i in range (batch): 


# 训练 迭代 


summary, accuracy = sess.run([merged, acc op], 
feed dict={X: X val, y true: 


y val]) 
writer.add summary (summary, step) 


生成 的 事件 日 志文 件 会 是 一 个 以 “events.” 开 头 的 文件 ， 如 前 文 所 说 ， 里 面 的 内 
容 都 是 使 用 protocol buffer 序列 化 之 后 的 二 进 制 数据 ， 只 能 通过 TensorBoard 打开 。 


3.4.2 ”启动 TensorBorad 服务 

TensorBoard 是 一 个 完整 的 Python 应 用 ， 通 过 命令 行 启动 Web。 

$ tensorboard ~-logdir=path/to/log-directory 

命令 行 的 “--logdir" 参 数 是 给 summary.FileWriter 写 入 事件 日 志文 件 的 目 录 路 径 。 
注意 这 里 指定 的 是 目录 ， 而 不 是 文件 。TensorBoard 在 加 载 数据 时 会 按 顺 序 读 取 一 个 
目录 下 的 所 有 TensorFlow 的 事件 文件 ， 这 主要 是 因为 当 训练 过 程 因为 某 些 错误 意外 
终止 又 被 重新 执行 时 , 会 生成 多 个 事件 文件 , 直接 读 取 一 个 目 录 就 能 将 多 个 文件 的 记 
录 过 程 不 间断 地 展示 出 来 。 另 外 , 如 果 指 定 的 目录 下 有 多 个 子 目 录 的 话 , TensorBoard 
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会 把 它们 当 作 多 次 执行 的 记录 , 可 以 并 行 展示 出 来 。 这 一 般 是 在 多 次 运行 ,比较 不 同 
参数 的 效果 时 使 用 。 


TensorBoard 命令 行 中 其 他 常用 的 参数 还 有 : 


e -port 设置 服务 端口 ， 默 认 端 口 为 6006。 
e  --event file 指定 某 一 个 特定 的 事件 日 志文 件 。 


e  --reload interval 服务 后 台 重新 加 载 数据 的 间隔 ， 默 认为 每 120 秒 。 


本 地 服务 启动 后 ， 可 以 在 浏览 器 中 打开 http://localhost:6006/ 进 行 访问 。 图 3-7 和 
3-8 是 Tensorboard 的 前 端 页 面 示例 。TensorBoard 前 端 页 面 默认 120 秒 自 动 刷新 ， 
所 以 如 果 是 长 时 间 训练 的 话 , 一 直 保持 浏览 器 页 面 打开 , 就 能 够 持续 看 到 程序 执行 的 
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3-8 TensorBoard 计算 图 可 视 化 


3.5 ”数据 读 取 


在 当前 数据 爆炸 的 时 代 , 几乎 人 类 的 一 切 行为 都 以 数据 的 形式 被 记录 下 来 , 各 种 
数据 的 规模 都 以 极 快 的 速度 增长 。 同 样 的 , 机 器 学 习 领域 的 各 种 数据 集 的 体积 也 是 越 
来 越 大 。 在 提高 运算 能 力 的 同时 ， 更 高 效 地 处 理 数 据 VO 也 是 提高 整体 性 能 非常 重要 
的 一 个 方面 。 


TensorFlow 官方 给 出 了 三 种 数据 加 载 的 方式 : 

1. 用 Python 代码 为 TensorFlow 供给 数据 ; 

2. 在 构建 计算 图 的 开始 部 分 ， 利 用 管道 从 文件 中 读 取 数 据 ; 

3. 预先 加 载 数 据 ， 用 常量 或 者 变量 将 数据 保持 在 内 存 中 ( 仅 适 用 于 小 数据 )。 


对 于 体积 较 小 的 数据 ， 直 接 预先 加 载 全 部 样本 到 内 存 ， 然 后 分 batch 输入 网 络 训 
练 是 最 方便 的 选择 。 而 对 于 几 百 GB 甚至 TB 级 别 的 大 数据 而 言 ， 加 载 到 内 存 就 不 太 
现实 了 ,一 方面 对 内 存 消耗 巨大 不 一 定 放 得 下 ， 另 一 方面 分 块 读 取 的 话 频繁 IO 也 会 
造成 执行 效率 大 打折 扣 。 因 此 , 选择 合适 的 输入 数据 格式 , 也 是 一 个 需要 着 重 关注 的 
方面 。 
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3.5.1. 数据 文件 格式 


对 于 可 以 直接 加 载 到 内 存 或 显存 中 的 比较 少量 的 数据 ( 一 般 为 1GB 以 内 的 级 别 ), 
数据 读 入 一 般 在 1 分 钟 内 就 可 以 完成 , 也 不 会 耗 尽 内 存 或 显存 ， 因此 不 会 对 整个 训练 
过 程 造成 瓶颈 。 对 于 这 种 量 级 的 数据 而 言 ， 除 了 csv 格式 以 外 ， 还 有 一 些 高 性 能 的 格 
式 文件 类 型 可 以 选择 ， 例 如 npy 和 npz 格式 、pkl 格式 和 hdf 格式 ; 


npy 和 npz 格式 


NumPy 库 作 为 高 性 能 计算 最 常用 的 库 ， 自然 有 处 理 数据 VO 所 需要 的 方法 。 
numpy.save0) 方 法 就 可 以 将 数组 存储 为 扩展 名 为 “.npy" 的 二 进 制 文件 .用 numpy.load() 
读 出 时 ， 它 可 以 自动 处 理 元 素 的 类 型 和 数组 维度 等 信息 。npz 文件 是 存储 多 个 数组 数 
据 的 文件 格式 ， 其 内 部 实际 是 将 多 个 npy 文件 归档 。 

pkl 格式 

pickle 是 Python 内 置 的 数据 序列 化 和 反 序 列 化 模块 ， 通过 该 模块 可 以 将 Python 
对 象 持久 化 成 pkl 格式 的 文件 。cPickle 是 与 pickle 在 功能 和 用 法 上 几乎 相同 的 包 ， 
但 由 于 是 使 用 C 语言 编写 的 , 所 以 在 性 能 上 比 pickle 高 出 1000 倍 。 一 般若 是 使 用 pkl 
格式 ， 则 用 cPickle 库 进行 操作 。 

hdf 格式 

HDF ( Hierarchical Data File ) 是 美国 国家 高 级 计 算 应 用 中 心 ( National Center for 
Supercomputing Application, NCSA ) 为 了 满足 各 种 领域 研究 需求 而 研制 的 一 种 能 高 
效 存储 和 分 发 科学 数据 的 新 型 数据 格式 , HDF5 是 其 系列 中 最 新 ， 也 是 目前 最 常用 的 
一 种 格式 。HDF 文件 是 通用 的 自 描述 的 数据 文件 格式 ， 可 以 跨 平台 高 效 读 写 。 


3.5.2 TFRecord 


对 于 大 数据 ，TensorFlow 推荐 使 用 自家 的 TFRecord 文件 。TFRecord 文件 同样 是 
以 二 进 制 进行 存储 数据 的 ， 适 合 以 串 行 的 方式 读 取 大 批量 数据 。TFRecord 内 部 的 格 
式 虽然 略为 复杂 不 易 理解 , 但 是 它 能 更 好 地 利用 内 存 ， 更 方便 地 复制 和 移动 ,更 符合 
TensorFlow 执行 引擎 的 处 理 方式 。 


普通 的 数据 很 容易 转换 成 TFRecord 格式 的 文件 。 只 需要 写 一 个 小 程序 ， 将 每 一 
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条 样本 组 装 成 protocol buffer 定义 的 Example 结构 的 对 象 ， 序 列 化 成 字符 串 ， 再 由 
tÉpython io.TFRecordWriter 写 入 文件 即 可 。 这 里 给 出 示 例 将 Titanic 数据 转换 成 
TFRecord 格式 ， 介 绍 基 本 的 TFRecord 文件 读 / 写 操作 及 其 使 用 。 关 于 大 数据 的 多 线 
程 写 入 操作 、 关 键 函 数 解析 、 变 长 序列 样本 SequenceExample 的 处 理 和 序列 样本 batch 
包 的 构建 等 相关 函数 概念 将 在 第 6 章 解释 , 并 给 出 完整 的 代码 示例 。Titanic 数据 转换 
示例 如 下 : 


# 将 train.csv 转换 为 train.tfrecords 

def transform to tfrecord(): 
data = pd.read csv('data/train.csv') 
tfrecord file - 'train.tfrecords' 


def int feature (value): 
return tf.train.Feature( 
inté4_list=tf.train.Int64List (value-[value])) 


def float feature (value): 
return tf.train.Feature( 
float list-tf.train.FloatList (value-[value])) 


writer = tf.python io.TFRecordWriter(tfrecord file) 
for i in range (len (data)): 
features - tf.train.Features (feature={ 
'Age': float feature (data['Age'][i]), 
'Survived': int feature (data['Survived'][i]), 
'Pclass': int feature (data['Pclass'][i]), 
'Parch': int feature (data['Parch'][i]), 
'SibSp': int feature (data['SibSp'][i]), 
'Sex': int feature(1if data['Sex'] [i] == 'male' else 0), 
'Fare': float feature (data['Fare'][i]) 
}) 
example = tf.train.Example (features-features) 
writer.write (example.SerializeToString()) 
writer.close() 


从 TFRecord 文件 中 读 出 数据 , 使 用 TFRecordReader。TFRecordReader 是 一 个 算 
子 ， 因 此 TensorFlow 能 够 记 住 tfrecords 文件 读 取 的 位 置 ， 并 且 始 终 能 返回 下 一 条 记 
录 。 


tftrain.string input producer 方 法 用 于 定义 TFRecord 文件 作为 模型 结构 的 输入 部 
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分 。 该 函数 输入 文件 名 列表 在 Session 运行 时 产生 文件 路 径 字 符 串 循环 队列 。 


根据 产生 的 文件 名 ，TFRecordReaderread 方法 打开 文件 ， 再 由 
t£parse single example 方法 解析 成 一 条 可 用 的 数据 。 tf.train.shuffle batch 可 以 设置 内 
存 读 取样 本 的 上 限 与 上 限 训练 batch 批 次 的 大 小 等 参数 ， 用 于 定义 产生 随机 生成 的 
batch 训练 数据 包 。 


在 Session 的 运行 中 , tf.train.shuffle batch 函数 生成 batch 数据 包 的 过 程 是 作为 线 
程 独立 运行 的 。 数 据 输入 线程 的 挂 起 和 运行 时 机 由 batch 数据 的 生成 函数 控制 。 本 例 
中 的 tftrain.shuffle batch. 函数 指定 内 存 保 存 样本 数量 的 上 限 capacity 和 下 限 
min_after_dequeue。 当 内 存 中 保存 的 样本 数量 大 于 上 限 capacity 时 ， 数 据 答 入 线程 挂 
起 。 反 之 ， 当 样本 数量 小 于 min_after_dequeue 时 ， 训 练 程序 挂 起 。 函数 start queue - 
runners 开启 对 应 运行 会 话 Session 的 所 有 线程 队列 并 返回 线程 句柄 。Coordinator 类 对 
象 负责 实现 数据 输入 线程 的 同步 。 当 string input. producer 函数 产生 无 限 循环 队列 时 
应 取消 数据 输入 与 训练 程序 的 线程 同步 。 读 入 的 示例 程序 如 下 : 


import tensorflow as tf 


def read and | decode(train files, num. threads-2, num epochs-100, 
batch size-10, min . after dequeue-10): 
# read data from trainFile with TFRecord format 
reader = tf£.TFRecordReader () 
filename queue = tf.train.string input producer( 
train files, 
num epochs-num . epochs) 
E, serialized example = reader.read(filename queue) 
featuresdict - tf.parse single example( 
serialized example, 
features={ 
'Survived': tf.FixedLenFeature([], tf.int64), 
'Pclass': tf£.FixedLenFeature([], tf.int64), 
'"Parch': tf.FixedLenFeature([], tf.int64), 
'SibSp': tf.FixedLenFeature([], tf.int64), 
'Sex': tf.FixedLenFeature([], tf.int64), 
'Age': tf.FixedLenFeature([], tf.float32), 
'"Fare': tf.FixedLenFeature([], tf.f10at32)]) 


# decode features to same format of float32 
labels = featuresdict.pop('Survived') 
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features = [tf.cast(value, tf.float32) 
for value in featuresdict.values()] 


* get data with shuffle batch and return 
features, labels - tf.train.shuffle batch( 
[features, labels], 
batch size-batch size, 
num threads-num threads, 
Ccapacity-min after dequeue * 3 * batch size, 
min after dequeue-min after dequeue) 
return features, labels 


def train with queuerunner(): 
X, y 7 read and decode(['train.tfrecords']) 


with tf.Session() as sess: 
tf.group(tf.global variables initializer(), 


tf.local variables initializer()).run() 


coord - tf.train.Coordinator() 


threads - tf.train.start queue runners(sess-sess, coord- 
coord) 
tries 
step = 0 
while not coord.should stop(): 
# Run training Steps or whatever 
features, lables - sess.run([x, y]) 
if step $ 100 -- 0: 
print('step $d:' $ step, lables) 
step += 1 
except tf.errors.OutOfRangeError: 
print('Done training -- epoch limit reached') 
finally: 
# When done, ask the threads to stop. 
coord.request stop() 
* Wait for threads to finish. 
coord.join (threads) 
if name  -- ' main ': 
train with queuerunner() 
b. 66 
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3.6 SkFlow, TFLearn 与 TF-Slim 


TensorFlow 在 接口 抽象 方面 拥有 非常 合理 的 设计 , 但 从 工程 化 的 角度 而 言 , 自然 
是 希望 能 够 用 更 少 的 代码 实现 更 复杂 的 逻辑 。Scikit-Leam 是 机 器 学 习 方面 的 标杆 系 
统 ， 其 接口 简洁 易 用 ， 只 需要 很 少 的 几 行 代码 就 可 以 实现 一 个 分 类 器 模型 。 因 此 , 将 
Scikit-Learn 的 接口 嫁接 到 TensorFlow 上 就 成 为 了 一 件 非常 有 吸引 力 的 事 。 


| SkFlow'; 是 TensorFlow 官方 推出 的 仿照 Scikit-Learn 设计 的 高 级 API。 其 中 对 多 
种 常用 的 分 类 回归 模型 进行 了 封装 ， 使 得 实现 一 个 分 类 器 仅 需 要 几 行 代码 即 可 完成 。 


import tensorflow.contrib.learn as skflow 
from sklearn import metrics 


feature cols = skflow.infer real valued columns from input(X train) 

classifier = skflow.LinearClassifier(feature columns-feature cols, 
n classes-2) 

classifier.fit(X train, Y train, steps-200) 

accuracy = metrics.accuracy, score(Y val, 


classifier.predict(X val)) 
print ("Accuracy: $f" $ accuracy) 


另 一 个 对 TensorFlow 做 了 高 级 封装 的 项 目 是 TFLeamo 这 是 一 个 完全 由 开源 社区 
贡献 完成 的 项 目 ， 在 GitHub 上 获得 了 很 高 的 Star 数 ， 是 一 个 非常 优秀 而 且 应 用 广泛 
的 项 目 。 


从 命名 即 可 看 出 ,TFLeam 与 SkFlow 一 样 也 是 仿照 Scikit-Leam 来 做 的 接口 设计 ， 
同样 对 多 种 常用 分 类 回归 模型 进行 了 封装 , 也 同样 是 佐 一 下 即 可 完成 整个 训练 过 程 。 

用 TFLeam 实现 Titanic 题目 的 逻辑 回归 ， 代码 是 TensorFlow 原生 实现 的 一 半 : 

import os 

import numpy as np 

import pandas as pd 


import tensorflow as tf 
import tflearn 





15 现 已 更 名 为 TF Learn, 为 了 避免 与 另 一 个 项 目 混淆 ， 本 书 中 仍然 将 其 称 为 SkFlow。 现 已 与 
TensorFlow 项 目 完全 集成 ， 成 为 TensorFlow 中 的 一 个 包 tcontrib.leam。 
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# 读 取 训练 数据 

train data = get train data() 

X = train data[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 
'Child', B 


'Fare', 


‘EmbarkedF', 'DeckF', 'TitleF', 'Honor']].as matrix() 
Y = train data[['Deceased', 'Survived']].as matrix() 


# arguments that can be set in command line 
tf.app.flags.DEFINE integer('epochs', 10, 'Training epochs') 


# 创建 存档 目录 

Ckpt dir = './ckpt dir' 

if not os.path.exists(ckpt dir): 
os.makedirs(ckpt dir) 


# 定义 分 类 模型 

n features = X.shape[1] 

input = tflearn.input data ([None, n features]) 

y pred - tflearn.layers.fully connected (network, 2, activation= 
'softmax') 

net - tflearn.regression(y pred) 

model = tflearn.DNN (net) 


+ 读 取 模型 存档 

if 0s.path.isfile(os.path.join(ckpt dir, 'model.ckpt')): 
model.load(os.path.join(ckpt dir, 'model.ckpt')) 

# 训练 

model.fit(X, Y, validation set-0.1, n epoch-tf.app.flags.FLAGS) 

# 存储 模型 参数 

model.save(os.path.join(ckpt dir, 'model.ckpt')) 

9 查看 模型 在 训练 集 上 的 准确 率 

metric = model.evaluate(X, Y) 

print('Accuracy on train set: $.9f' $ metric[0]) 


# 读 取 测 试 数据 ， 并 进行 预测 
test data = get test data() 
X = test data[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 'Fare', 
'Child', 
'EmbarkedF', 'DeckF', 'Titler', 'Honor']].as matrix() 


predictions - np.argmax (model.predict(X), 1) 
submission = pd.DataFrame ({ 
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"PassengerId": test data["PassengerId"], 
"Survived": predictions 


}) 
submission.to_csv("titanic-submission.csv", index=False) 


可 以 看 到 ， 使 用 SkFlow 和 TFLeam 这 种 高 级 接口 可 以 大 幅度 地 节省 代码 量 ， 在 
加 快 开发 速度 的 同时 ， 也 意味 着 降低 bug 率 ， 并 且 让 代码 的 可 读 性 更 高 。 

TensorFlow-Slim ( 简称 TF-Slim ) 也 是 TensorFlow 官方 开放 的 一 个 轻 量 级 的 高 纪 
接口 库 ， 使 用 这 个 库 可 以 让 复杂 模型 的 定义 、 训 练 、 评 估 都 变 得 简单 。TF-Slim 在 图 
像 模 型 方面 有 较 大 的 优势 ， 它 包含 了 很 多 新 的 层 (如 Atrous 卷 积 层 ) 和 新 的 评估 标 
准 ( 如 mAP、IoU ), 还 内 置 了 包括 AlexNet, inception, VGGNet, OverFeat, ResNets 
在 内 的 各 种 经 典 图 像 识别 模型 。 

对 于 深度 学 习 模型 的 开发 来 说 ， 使 用 SkFlow. TFLearn 或 Slim 相对 于 使 用 原生 
接口 编程 都 有 比较 大 的 优势 ,不 但 对 卷 积 .递归 神经 网 络 等 神经 元 层 进行 了 高 度 封 装 ， 
而 且 还 能 达到 自动 处 理 各 种 事件 日 志 、 显 示 训 练 进度 、 简 化 模型 存档 等 功效 ,往往 能 
达到 一 行 代码 胜 千言 的 理想 状态 ， 极 大 地 提高 开发 效率 。 


3.7 小 结 


通过 这 一 章 的 介绍 可 以 看 到 ,TensorFlow 的 安装 和 使 用 都 十 分 简单 , 对 于 机 器 学 
习 算 法 开发 有 着 极 大 的 帮助 ， 让 机 器 学 习 不 再 是 一 件 只 有 专家 才能 做 的 事 。 同 时 ， 
TensorBoard, TFLearn 等 一 众 辅助 工具 和 扩展 项 目 还 能 进一步 降低 TensorFlow 的 上 
手 门槛 ， 为 大 规模 深度 学 习 应 用 奠定 了 基础 。 
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第 3 章 ， 通 过 Titanic 挑战 问题 ， 介 绍 了 TensorFlow 在 传统 机 器 学 习 中 的 基本 使 
用 方式 。 如 前 文 所 说 , 特征 工程 在 传统 机 器 学 习 中 占有 至 关 重 要 的 地 位 。 由 于 特征 工 
程 依赖 于 人 类 对 问题 本 身 的 理解 , 所 以 很 难 将 程序 推广 到 其 他 类 似 的 实际 应 用 中 。 例 
i, 在 图 像 分 类 问题 中 , 传统 的 机 器 学 习 对 于 不 同 颜色 和 不 同形 状 的 目标 需要 使 用 不 
同 的 特征 提取 算法 获取 特征 。 深度 卷 积 神经 网 络 为 图 像 分 类 提供 了 统一 的 解决 方案 。 


对 于 人 类 而 言 , 视觉 是 认识 世界 最 重要 的 渠道 , 大 脑 每 天 要 处 理 的 信息 中 , 通过 
视觉 感官 接收 到 的 信息 占 了 80% 以 上 。 而 对 于 计算 机 来 说 ,虽然 也 可 以 通过 镜头 “看 
到 ”所 有 的 画面 ， 但 是 “看 懂 ” 画 面 里 的 内 容 则 并 不 是 一 件 容易 的 事情 。 一 张 图 片 中 
包含 的 语义 信息 错综复杂 , 但 在 计算 机 看 来 则 只 是 一 个 个 零散 而 独立 的 像素 点 。 如 何 
以 计算 机 的 语言 表达 像素 与 像素 之 间 的 语义 关系 ， 是 最 大 的 挑战 。 


卷 积 神经 网 络 ( Convolutional Neural Networks, 简称 CNNs ), 由 纽约 大 学 的 Yann 
LeCun 教授 于 1989 年 发 明 ,是 一 种 专门 为 处 理 高 维 网 格 型 数据 ( 也 就 是 张 量 Tensor ) 
而 设计 的 神经 网 络 。 卷 积 神经 网 络 最 擅长 处 理 图 像 数 据 ， 例如 用 二 维 矩 阵 表 示 的 灰 度 
图 像 ， 三 维 数组 (高 、 宽 、RGB 通道 ) 表示 的 彩色 图 片 等 ， 也 在 该 领域 取得 了 令 世 
界 瞩目 的 成 绩 。 在 2012 年 ILSVRC 图 像 识别 竞赛 中 ，Alex Krizhevsky 基于 卷 积 神经 
网 络 设计 的 分 类 模型 AlexNet 大 放 异彩 ， 以 压倒 性 优势 赢得 了 当年 的 冠军 ， 体现 了 
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CNNs 在 图 像 识 别 问题 上 的 强大 能 力 ， 同 时 也 体现 了 深度 学 习 的 巨大 潜力 ， 瞬 间 使 
CNNs 和 深度 学 习 成 为 了 科学 家 们 追捧 的 热门 研究 领域 。 


在 本 章 中 , 首先 会 简单 介绍 卷 积 神经 网 络 的 基本 原理 , 随后 介绍 各 种 经 典 的 深度 
卷 积 神经 网 络 模型 及 TensorFlow 实现 ， 最 后 ， 通 过 图 像 风 格 化 应 用 开启 新 世界 的 大 
I], 看 看 CNNs 除了 物体 识别 外 还 有 什么 本 领 。 


4.1 图 像 识别 的 难题 


机 器 学 习 的 核心 问题 是 分 类 和 回归 ， 对 于 图 像 来 说 也 不 例外 。 著 名 的 ILSVRC 
图 像 识别 竞赛 中 最 基础 的 一 项 就 是 要 求 参赛 者 对 海量 的 图 像 进行 识别 并 分 类 。 在 识别 
分 类 的 基础 上 ， 可 以 扩展 实现 目标 定位 和 多 目标 检测 。 


ILSVRC ( ImageNet Large Scale Visual Recognition Challenge ) 是 近年 来 机 器 视觉 
领域 最 受 追捧 也 是 最 具 权 威 的 学 术 竞赛 之 一 。 每 年 全 世界 最 顶尖 的 科学 家 和 企业 都 会 
参与 到 这 个 盛会 中 , 利用 最 前 沿 、 最 先进 的 算法 来 解决 图 像 识别 方面 的 难题 ,并 不 断 
刷新 各 种 挑战 的 记录 , 代表 了 图 像 领域 的 最 高 水 平 。 几 乎 每 一 年 冠军 队伍 提出 的 新 模 
型 ， 都 是 来 年 CVPR 会 议 上 的 大 热门 。 


ImageNet 数据 集 是 ILSVRC 竞赛 中 使 用 的 数据 集 ， 由 斯 坦 福 大 学 著名 的 华人 教 
授 李 飞 飞 主导 ， 其 中 包含 了 超过 1400 万 张 全 尺寸 的 有 标记 图 片 。ILSVRC 比赛 会 每 
年 从 ImageNet 数据 集中 抽出 部 分 样本 ， 以 2012 年 为 例 ， 比 赛 的 训练 集 包含 1281167 
张 图 片 ， 验 证 集 包含 50000 张 图 片 ， 测 试 集 为 100000 张 图 片 。 


ILSVRC 竞赛 的 比赛 项 目 实际 上 是 图 像 识 别 和 计算 机 视觉 领域 中 最 困难 、 应 用 范 
围 最 广 、 最 需要 解决 的 问题 。 它 包括 如 下 几 个 问题 
1. 图 像 分 类 与 目标 定位 (CLS-LOC) 


图 像 分 类 与 目标 定位 最 初 是 两 个 独立 的 项 目 。 图 像 分 类 的 任务 是 要 判断 图 片 中 的 
物体 在 1000 个 分 类 中 所 属 的 类 别 ， 主 要 采用 top-5 错误 率 的 评估 方式 ， 即 对 于 每 张 
图 给 出 5 次 猜测 结果 , 只 要 5 次 中 有 一 次 命中 真实 类 别 就 算 正确 分 类 , 最 后 统计 完全 
没有 命中 的 错误 率 。2012 年 之 前 ， 图 像 分 类 最 好 的 成 绩 是 26% 的 错误 率 ，2012 年 
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AlexNet 的 出 现 降低 了 10 个 百分点 ， 错 误 率 降 到 16%, 而 到 了 2016 年 ， 由 公安 部 第 
三 研究 所 选派 的 “ 搜 神 ”( Trimps-Soushen ) 代表 队 在 这 一 项 目 中 获得 冠军 ， 将 成 绩 
提高 到 仅 有 2.9% 的 错误 率 。 


目标 定位 项 目 是 要 在 分 类 正确 的 基础 上 ， 从 图 片 中 标识 出 目标 物体 所 在 的 位 置 ， 
用 方 框框 定 ， 以 错误 率 作为 评判 标准 。 其 难度 在 于 , 图 像 分 类 问题 可 以 有 5 次 尝试 机 
会 ， 而 在 目标 定位 问题 上 ， 每 一 次 都 需要 框 定 得 非常 准确 。 在 这 一 项 目 上 ，2015 年 
ResNet 贡献 了 巨大 的 提高 ， 从 上 一 年 的 最 好 成 绩 25% 的 错误 率 ， 提 高 到 了 9%。2016 
年 该 项 目的 冠军 同样 是 公安 部 三 所 的 Trimps-Soushen 代表 队 ， 错 误 率 仅 为 .7%。 


2. 目标 检测 (DET) 


目标 检测 是 在 定位 的 基础 上 更 进一步 ,在 图 片 中 同时 检测 并 定位 多 个 类 别 的 物体 。 
具体 来 说 ， 是 要 在 每 一 张 测试 图 片 中 找到 属于 200 个 目标 类 别 中 的 所 有 物体 ， 如 人 、 
勺子 、 水 杯 等 。 最 终 的 评判 方式 是 看 模型 在 每 一 个 单独 类 别 中 的 识别 准确 率 , 在 多 数 
类 别 中 都 获得 最 高 准确 率 的 队伍 获胜 。 平 均 检 出 率 mean AR mean Average Precision ) 
是 这 一 项 上 的 重要 指标 , 一 般 来 说 ， 平均 检 出 率 最 高 的 队伍 也 会 在 多 数 的 独立 类 别 中 
获胜 ，2016 年 这 一 成 绩 达 到 了 66.2%。 


3. 视频 目标 检测 CVID) 


视频 目标 检测 与 图 片 目标 检测 任务 类 似 ， 是 要 检测 出 视频 每 一 由 中 包含 的 多 个 类 
别 的 物体 。 要 检测 的 目标 物体 有 30 个 类 别 ， 是 目标 检测 200 个 类 别 的 子 集 。 此 项 问 
题 最 大 的 难度 在 于 要 求 算法 的 检测 效率 非常 高 。 评 判 方式 与 目标 检测 相同 , 在 独立 类 
别 识别 最 准确 的 队伍 获胜 。2016 年 南京 信息 工程 大 学 队伍 在 这 一 项 目 上 获得 了 冠军 ， 
他 们 提供 的 两 个 模型 分 别 在 10 个 类 别 中 胜出 ， 并 且 达 到 了 平均 检 出 率 超过 80% 的 好 
成 绩 。 

4. 场景 分 类 (Scene) 


场景 分 类 是 要 识别 图 片 中 的 场景 , 比如 森林 、 剧场 、 会 议 室 、 商 店 等 。 也 可 以 说 ， 
场景 分 类 要 识别 图 像 中 的 背景 。 这 个 项 目 由 MIT Places 团队 组 织 ， 使 用 Places2 数据 
集 ， 其 中 包括 400 多 个 场景 的 超过 1000 万 张 图片 。 评判 标准 与 图 像 分 类 相同 ，5 次 
猜测 中 有 一 次 命中 即 可 ， 最 后 统计 错误 率 。2016 年 最 佳 成 绩 的 错误 率 仅 为 9%。 
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场景 分 类 问题 中 还 有 一 个 子 问题 是 场景 分 割 , 是 要 将 图 片 划分 成 不 同 的 区 域 , 比 
如 天 空 、 道 路 、 人 、 桌 子 等 。 该 项 目 由 MIT CSAIL 视觉 组 组 织 ， 使 用 ADE20K 数 
据 集 ， 包 含 2 万 多 张 图 片 ，150 个 标注 类 别 ， 例 如 天 空 、 玻 璃 、 人 、 车 、 床 等 。 这 个 
项 目 会 同时 评估 像素 级 准确 率 和 分 类 IoU ( Intersection of Union )。 


除了 ILSVRC 竞赛 所 列 出 的 题目 之 外 ,图 像 领 域 的 深度 学 习 探索 还 有 许多 有 趣 的 
问题 ， 比 如 看 图 说 话 (Image Captioning) 是 为 给 定 的 图 片 配 上 一 段 说 明文 字 ， 图 像 
纹理 提取 的 是 图 像 中 的 纹理 特征 。 更 有 一 些 无 监督 学 习 的 探索 ， 比 如 Google 让 计算 
机 自己 从 无 标注 的 图 片 中 学 会 了 识别 猫 的 样子 。 


总 之 , 可 以 说 图 像 识别 是 一 项 基础 研究 , 应 用 场景 非常 丰富 ,所 要 面临 的 问题 也 
非常 有 挑战 ， 仍 然 需要 不 懈 地 研究 下 去 。 





4.0 CNNs 的 基本 原理 


在 卷 积 神经 网 络 出 现 之 前 ， 也 有 人 尝试 使 用 人 工 神经 网 络 ( ANNs ) 解决 图 像 分 
类 问题 但 是 一 直 没有 取得 很 好 的 效果 。 


如 果 了 解 传统 神经 网 络 就 会 知道 ， 作 为 神经 元 的 感知 机 (perceptron ) 模型 的 结 
构 非常 简单 ， 用 数学 方法 表示 就 是 矩阵 相 乘 后 进行 非 线性 变换 ， 即 


f(x) = sign(xW + b) 


在 这 里 面 , 权 值 矩阵 W 实 际 表 示 了 输入 节点 与 输出 节点 之 间 的 影响 关系 。 如 果 输 
入 节点 与 输出 节点 之 间 的 权 值 参数 的 绝对 值 越 大 , 就 代表 两 个 节点 的 相关 性 越 高 。 在 
全 连接 结构 中 ， 每 一 个 节点 的 输入 都 是 上 一 层 的 所 有 输出 ， 当 隐 层 节点 数目 较 多 时 ， 
整个 网 络 中 的 参数 数目 会 变 得 非常 巨大 。 以 图 片 来 说 , 一般 jpg 格式 的 图 片 在 计算 机 
中 以 三 维和 矩阵 的 形式 存储 。 假 设 要 处 理 一 张 分 辨 率 为 1000 x 1000 的 灰 度 图 ， 则 一 共 
会 有 1000 x 1000 x 3 = 3000000 个 uint8 类 型 的 整数 值 。 若 以 每 一 个 值 都 是 一 个 特征 
维度 ， 想 要 经 过 一 层 感 知 机 的 变换 后 输出 维度 不 变 ， 就 需要 一 个 1000 x 1000 x 
1000 x 1000 = 10 ?个 元 素 的 参数 矩阵 ， 如 图 4-1 所 示 。 在 这 种 情况 下 ， 不管 是 权 值 
矩阵 占用 的 存储 空间 , 还 是 模型 的 计算 量 都 是 海量 的 。 由 此 导致 的 问题 是 ,参数 过 多 
则 收敛 速度 慢 , 需要 更 多 的 数据 和 更 多 的 训练 迭代 , 但 巨大 的 计算 量 意味 着 不 可 能 在 
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有 限 的 时 间 内 完成 所 需要 的 计算 。 


FULLY CONNECTED NEURAL NET 


Example: 1000x1000 imoge 
1M hidden units 







- Spatial correlation is local 
- Better to put resources elsewherel 


LI 


图 4-1 全 连接 神经 网 络 处 理 图 像 会 导致 参数 操 炸 


从 另 一 个 角度 来 说 , 其 实 从 语义 上 来 理解 也 同样 存在 问题 : 全 连接 的 网 络 结构 在 
处 理 每 一 个 像素 时 ,其 相 邻 像素 与 距离 很 远 的 像素 都 是 无 差别 地 对 待 的 , 并 没有 考虑 
图 像 内 容 的 空间 结构 。 但 一 般 来 说 图 像 的 语义 并 不 以 像素 为 单位 ,而 是 各 种 连续 的 线 
条 、 形 状 或 色 块 ， 要 让 全 连接 网 络 模型 通过 数据 从 零 开 始 学 习 其 中 的 模式 规律 ， 自然 
是 非常 困难 的 , 需要 极 大 的 代价 ， 倒 不 如 直接 设计 一 种 结构 代入 人 类 的 先 验 经 验 来 处 
理 这 种 空间 结构 。 


由 此 , 卷 积 神经 网 络 应 运 而 生 。 卷 积 神经 网 络 是 指 : 至 少 有 一 层 计算 为 卷 积 操作 
的 神经 网 络 。 卷 积 操作 是 其 中 的 核心 , 它 与 全 连接 结构 最 大 的 不 同 ,就 是 它 充分 利用 
了 图 片 中 相 邻 区 域 的 信息 , 通过 稀 琉 连接 和 共享 权 值 的 方式 大 大 减少 参数 矩阵 的 规模 ， 
从 而 减少 计算 量 , 也 大 大 地 提高 了 收敛 速度 。 那 什么 是 卷 积 呢 ? 具体 又 是 如 何 减少 参 
数 规模 的 呢 ? 


4.2.1 卷 积 的 数学 意义 

卷 积 原本 是 一 种 积分 变换 的 数学 方法 ， 是 通过 两 个 函数 f 和 9 生成 第 三 个 函数 
的 算 子 。 可 以 通过 下 面 这 个 例子 来 更 好 地 理解 卷 积 的 概念 。 

想象 这 样 一 个 场景 : 在 一 个 冬日 希 懒 的 午后 ， 你 正 窝 在 沙发 上 拿 着 手机 刷 微 博 、 
刷 微 信 、 刷 知 平 、 刷 twitter (1982 twitter? )， 突 然 屏 幕 上 弹出 一 个 白色 弹 窗 ， 电量 
不 足 20%， 请 充电 ”， 剑 眼 一 盯 ， 果然 电量 显示 已 经 飘红， 惊 改 中 你 匆忙 从 沙发 上 弹 
起 来 ， 找 到 充电 线 插 上 , 嗯 ,安心 了 ， 继 续 刷 刷 刷 …… 那 么 现在 问题 来 了 ， 从 一 边 使 
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用 手机 一 边 给 手机 充电 的 时 候 开始 算 起 ， 请 问 在 某 一 时 刻 t 的 手机 电池 的 充电 电量 是 
多 少 ? 


如 果 假设 手机 的 耗 电 速度 和 充电 速度 都 是 恒定 值 的 话 , 那 这 个 问题 就 变 成 了 我 们 
都 熟知 并 令 许 多 人 深恶痛绝 的 蓄 水 池 问 题 , 即 一 个 水 管 进 水 另 一 个 水 管 放水 , 求 何 时 
可 以 储 满 或 放空 水 池 。 这 种 简单 问题 小 学 生 就 能 搞定 。 但 是 实际 情况 并 没有 那么 理想 。 


首先 , 电量 的 输入 并 不 是 恒定 的 ,由 于 我 们 现在 使 用 的 基本 上 都 是 交流 电 , 所 以 
可 以 认为 充电 的 电量 是 与 正弦 函数 sin 相关 的 函数 ， 我 们 将 上 时 刻 的 输入 表示 为 
x(t), x 和 上 的 取 值 都 是 实数 域 ， 因 为 时 间 和 正弦 函数 是 连续 的 。 其 次 , 电量 的 消耗 
也 不 是 恒定 值 , 因为 手机 在 静 置 待机 状态 下 和 正常 使 用 状态 下 的 用 电量 肯定 不 同 。 在 
这 里 对 于 电量 消耗 可 以 换 一 种 理解 , 认为 消耗 的 电量 其 实 是 对 之 前 所 充 入 电量 的 衰减 ， 
也 就 是 说 充 入 电量 的 功效 时 刻 在 经 历 着 衰减 。 那 么 可 以 将 电量 的 衰减 系数 表示 为 
wa), Rh a 是 测量 的 时 长 。 将 这 两 个 函数 结合 起 来 ， 就 得 到 了 测量 某 时 刻 t 的 手 
机 电量 的 表示 : 


s(t) = f x(a) w(t — a) da 
这 一 操作 就 叫做 卷 积 ， 它 也 通常 被 简化 地 表示 成 星 号 的 形式 ; 


s(t) = (x * w)(t) 
卷 积 操作 实际 上 是 对 输入 函数 的 每 一 个 位 置 进行 加 权 累 加 。 x(t) 是 输入 信号 , 误 
减 系 数 w(t — a) 是 系统 对 信号 的 响应 ， 卷 积 (x * w)(t) 就 是 在 时 刻 上 对 系统 观察 的 
结果 ， 是 所 有 信号 经 过 系统 的 处 理 后 的 结果 的 番 加 。 
从 实际 数据 来 说 ， 由 于 不 可 能 真 的 做 到 实时 测量 ， 所 以 一 般 是 将 时 间 离 散 化 后 ， 
接 固定 的 时 间 间 隔 进行 测量 ， 所 以 数据 不 会 是 连续 的 。 可 以 假设 只 考虑 整数 时 刻 , B 
! 为 整数 的 情况 ， 则 离散 后 的 卷 积 可 以 表示 为 


s(t) = (x x w)(t) = $ x@w(e- a) 


离散 化 后 的 公式 就 稍微 容易 理解 一 些 。 可 以 理解 为 , 单位 时 间 输入 的 电量 会 随 着 
使 用 被 逐渐 消耗 , 在 时 刻 上 的 手机 电量 ,就 是 之 前 各 个 单位 时 间 充 入 电量 中 尚未 衰减 
掉 的 剩余 值 的 累加 结果 。 
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卷 积 其 实 是 图 像 处 理 中 一 种 党 用 的 线性 滤波 方法 ， 使 用 卷 积 可 以 达到 图 像 降 品 、 
锐 化 等 多 种 滤波 效果 。 
图 像 的 卷 积 的 计算 过 程 并 不 复杂 , 对 于 一 张 二 维 的 图 片 7 和 一 个 二 维 的 卷 积 核 沪 
波 矩 阵 K， 卷 积 操作 可 以 表示 成 : 
5.) = (* I0.) = YY Men) KG mj — 7) 


简单 来 说 , 就 是 对 于 图 片 中 的 每 一 个 像素 点 ,计算 它 的 邻 域 像素 和 滤波 器 矩阵 的 
对 应 位 置 元 素 的 乘积 ， 然 后 将 所 有 乘积 累加 ， 作 为 该 像素 位 置 的 输出 值 。 卷 积 核 依 
次 滑 过 图 片 中 的 每 一 个 像素 位 置 , 就 可 以 输出 一 张 分 辩 率 从 来 不 变 的 新 图 片 。 从 数学 
上 说 ， 就 是 求 两 个 矩阵 的 滑动 点 积 或 者 滑动 内 积 ， 如 图 4-2 所 示 。 





图 4-2 卷 积 操作 的 过 程 示 例 


可 以 看 到 , 所谓 的 卷 积 核 ,实际 就 是 一 个 权 值 矩阵 ,表示 如 何 处 理 单个 像素 与 其 
邻 域 像 素 之 间 的 关系 。 卷 积 核 中 各 个 元 素 的 相对 差 值 越 小 , 相当 于 每 个 像素 都 与 周围 





16 卷 积 与 协 相关 ( cross-corelation ) 是 信号 处 理 中 两 种 常用 的 操作 , 在 计算 上 非常 相似 ， 严 格 
来 说 ， 卷 积 需要 先 对 卷 积 核 矩 阵 进行 翻转 。 然而 对 于 机 器 学 习 来 说 并 不 重要 ， 因 为 算法 会 
调整 每 一 个 参数 值 ， 并 最 终 把 合适 的 值 放 在 合适 的 位 置 。 


77 A 
ww ai bbt. com [] L1 LI D] D] UI U 


B 深度 学 习 原理 与 TensorFlow 实践 


像素 取 了 个 平均 值 ， 就 越 有 模 焰 降 品 的 效果 。 而 卷 积 核 元 素 的 差 信 越 大 ， 就 拉 大 了 每 
个 像素 与 周围 像素 的 差距 ， 也 就 越 能 提取 边缘 ， 或 者 达到 锐 化 的 效果 。 


在 实际 应 用 中 , 卷 积 核 矩 阵 的 尺寸 一 般 都 比较 小 , 主要 原因 是 卷 积 核 尺寸 与 计算 
量 成 正比 , 卷 积 核 尺寸 增 大 会 使 得 计算 量 成 倍增 加 。 同 时 ,一 般 卷 积 核 答 阵 为 正方 形 ， 
并 且 边 长 为 奇数 ， 比 如 3 x 3、5 x 5 或 者 7 x 7， 这 样 才能 保证 有 且 只 有 一 个 中 心 ， 输 
出 的 时 候 可 以 与 原 图 的 像素 有 所 对 应 。 当 然 这 也 并 不 是 必须 的 , 非 对 称 卷 积 核 同 样 可 
以 计算 。 

卷 积 核 矩 阵 中 各 个 元 素 的 取 值 , 除了 影响 输出 效果 以 外 ,还 会 影响 输出 图 片 的 亮 
度 。 若 卷 积 核 内 所 有 元 素 的 累加 和 等 于 1， 那 就 基本 上 保持 了 与 原 图 相同 的 亮度 。 若 
大 于 1， 则 输出 图 会 变 亮 ， 若 小 于 1， 输 出 图 的 亮度 就 会 变 暗 。 当 卷 积 核 中 元 素 累 加 
和 为 0 时 ,输出 的 图 片 亮度 会 非常 低 ,但 并 不 是 全 黑 ， 而 是 大 部 分 面积 都 是 黑色 , (X 
有 部 分 图 案 的 边缘 还 有 一 些 亮度 ， 这 样 的 卷 积 核 就 可 以 用 于 边缘 提取 。 


卷 积 操作 中 , 对 于 图 像 边缘 像素 的 处 理 是 值得 注意 的 地 方 。 在 卷 积 核 和 矩阵 滑 过 图 
片 每 一 个 像素 的 过 程 中 , 当 遇 到 图 像 边 缘 的 时 候 ， 例 如 图 像 顶部 的 像素 , 如 果 把 卷 各 
核 的 中 心 对 应 到 图 像 像素 , 那么 卷 积 核 上 面 几 个 位 置 就 没有 与 之 对 应 的 像素 了 , 这 应 
该 如 何 计算 呢 ? 此 时 有 两 类 处 理 方式 。 一 类 叫做 “Valid Padding”"， 是 直接 忽略 这 种 
无 法 计算 的 边缘 像素 , 只 计算 那些 能 计算 的 部 分 。 这 种 做 法 的 输出 图 片 会 比 原 图 尺寸 
要 小 。 比 如 使 用 3 x 3 的 卷 积 核 来 卷 积 一 张 800 x 600 的 图 片 ， 则 输出 图 片 的 尺寸 是 
798 x 598， 也 就 是 上 下 左右 每 一 个 方向 都 减少 了 一 个 像素 。 另 一 类 叫做 “Same 
Padding ， 是 对 原 图 的 外 围 进行 无 限 填充 使 得 边缘 像素 能 够 进行 合法 计算 。 在 这 种 方 
法 中 ， 可 以 将 外 围 全 部 填充 为 0， 或 是 填充 为 最 临近 的 边缘 像素 值 ， 或 是 认为 图 片 是 
无 限 循环 的 ， 镜 像 翻 转 图 片 作为 填充 值 。“Same Padding” 可 以 保证 输出 图 片 的 尺寸 
与 原 图 保持 不 变 ， 这 是 常用 的 方法 。 


在 图 像 处 理 中 ,通常 会 用 到 一 些 经 典 的 卷 积 滤波 器 ,如 低 通 滤波 器 ,高通 滤波 器 、 
高 斯 滤波 器 ， 这 些 滤波 器 会 产生 不 同 的 效果 ， 图 4-3 展示 了 一 些 具体 的 例子 。 
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图 4-3 名 种 卷 积 滤波 器 的 效果 。 依 次 为 : 原 图 、 低 通 滤 波 器 ( Low Pass Filter )、 高 斯 滤波 器 ( Gaussian Filter )、 
锐 化 滤波 器 ( Sharpeness Filter )、 边 缘 检 测 〈《 Edge Detection ), YEWA ( Embossing Filter ) 


各 种 效果 可 以 使 用 opencv 轻易 实现 出 来 : 


import cv2 
import numpy as np 


# 读 入 原 图 
image = cv2.imread("flower. jpg") 
cv2.imshow('original', image) 


+ 低 通 滤波 
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kernel = np.array([[.11, eli; «1115 
Dii Xl. AN, 
[.11, .11, .11]]) 
rect = cv2.filter2D(image, -1, kernel) 
cv2.imwrite('rect.jpg', rect) 


# 高 斯 滤波 
kernel = np.array([[1, 4, 7, 4, 1], 

[4, 16, 26, 16, 4), 

(7, 26, 41, 26, 7], 

[4, 16, 26, 16, 4], 

[1, 4, 7, 4, 1]]) / 273.0 
gaussian - cv2.filter2D(image, -1, kernel) 
cv2.imwrite('gaussian.jpg', gaussian) 


# 锐 化 

kernel = np.array([[0, -2, 0], 
l-2, 9, -2], 
[0, -2, 0]]) 


sharpen - Cv2.filter2D (image, -1, kernel) 
cv2.imwrite('sharpen.jpg', sharpen) 


+ 边缘 检测 

kernel = np.array({[-1, -1, -1], 
[-ly 8, -1], 
[-1, -1, -1]]) 


edges = cv2.filter2D(image, -1, kernel) 
cv2.imwrite('edges.jpg', edges) 


+ 浮雕 
kernel = np.array([[-2, -2, -2，-2，0]， 

(-2, -2, -2, 0, 2], ^ 

[-2, -2, 0, 2, 2], 

[-2, 0, 2, 2, 2], 

(0, 2, 2, 2, 2]}) 
emboss = cv2.filter2D(image, -1, kernel) 
emboss = cv2.cvtColor(emboss, cv2.COLOR_BGR2GRAY) 
cv2.imwrite('emboss.jpg', emboss) 

ne 


由 此 可 见 , 卷 积 滤波 是 图 像 处 理 中 非常 重要 的 工具 ， 使 用 简单 的 几 行 代码 就 能 实 
现 许 多 Photoshop 能 够 达到 的 效果 。 
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4.2.3 CNNs 中 的 卷 积 层 


从 图 像 识别 的 角度 而 言 , 既然 卷 积 操作 可 以 做 到 增强 边缘 、 消 除 噪声 等 效果 ， 那 
自然 是 可 以 作为 图 片 特征 提取 的 重要 工具 ， 比 如 著名 的 Sobel 算 子 就 用 于 边缘 检测 ， 
配合 SVM 算法 可 以 在 行人 检测 问题 上 获得 不 错 的 结果 。 但 是 像 Sobel 算 子 这 种 经 过 
利用 人 类 经 验 精心 设计 卷 积 核 的 方式 有 比较 大 的 局 限 性 : 一 是 应 用 范围 有 限 ， 比 如 
Sobel 算 子 只 能 做 边缘 提取 ， 二 是 人 类 经 验 有 限 ， 找 到 合适 的 卷 积 核 的 代价 比较 大 。 
那 既 然 类 似 Sobel 这 种 算 子 本 质 上 是 个 函数 , 是 不 是 能 用 机 器 学 习 的 方法 来 逼近 呢 ? 
答案 是 肯定 的 。 卷 积 操作 与 反 向 传播 算法 相 结 合 ,就 诞生 了 卷 积 神经 网 络 。 从 此 不 再 
需要 人 造 卷 积 核 ， 通 过 大 量 图 片 让 程序 自己 训练 学 习 卷 积 核 参数 就 可 以 了 。 

从 网 络 结构 来 说 , 卷 积 层 节点 与 全 连接 层 节点 有 三 点 主要 的 不 同 , 一 是 局 部 感知 
域 ， 二 是 权 值 共享 ， 三 是 多 核 卷 积 。 

局 部 感知 域 是 指 ,对 于 每 一 个 计算 单元 来 说 ,只 需要 考虑 其 像素 位 置 附近 的 输入 ， 
并 不 需要 与 上 一 层 的 所 有 节点 相连 。 这 一 点 符合 人 们 对 于 图 像 的 理解 , 也 就 是 图 像 是 
相对 连续 的 ,局 部 信息 的 组 合 才能 构成 各 种 线条 形状 。 这 种 稀疏 连接 的 方式 可 以 大 大 
减少 参数 的 个 数 。 对 于 一 张 1000 x 1000 像 素 的 图 片 来 说 ， 全 连接 模型 中 每 个 隐 层 节 
点 都 有 10 万 个 输入 ,也 就 有 对 应 的 10 万 个 权 值 参数 ,如 图 4-4 所 示 。 而 若 使 用 10 x 10 
的 卷 积 核 进行 卷 积 操作 的 话 , 每 个 节点 只 有 100 个 输入 , 对 应 100 个 权 值 , 数量 级 大 
大 减少 。 

LOCALLY CONNECTED NEURAL NET 


Filter size: 10x10 
100M parameters 





图 44 局 部 感知 域 


81 4 
ww ai bbt. com [] LL B D] D] U 





E: 深度 学 习 原理 与 TensorFlow 实践 


男 一 项 减少 参数 个 数 的 方式 是 权 值 共享 。 通 过 介绍 卷 积 滤波 器 之 后 我 们 知道 , 在 
对 一 张 图 片 进行 卷 积 的 时 候 ， 会 让 卷 积 核 逐一 滑 过 图 片 的 每 个 像素 ， 也 就 是 说 ， 处 理 
每 一 个 像素 点 的 参数 都 相同 。 以 10 x 10 的 卷 积 核 卷 积 1000 x 1000 像 素 的 图 片 ， A 
只 需要 100 个 参数 即 可 ， 如 图 4-5 所 示 。 


每 个 卷 积 核 是 一 个 特征 提取 器 ， 若 只 有 一 个 卷 积 核 的 话 ， 就 只 能 提取 一 种 特征 ， 
这 显然 是 不 够 的 。 所 以 使 用 多 个 卷 积 核 ,比如 32 个 ,同时 提取 32 种 特征 ， 以 多 核 着 
积 的 方式 保证 充分 提取 特征 。 
CONVOLUTIONAL NET 






E.g.: 1000x1000 image. 
100 Filters 
Filter size: 10x10 
10K parameters 


图 4-5 多 核 卷 积 


每 个 卷 积 核 都 会 生成 一 幅 新 的 图 像 , 在 卷 积 神经 网 络 中 , 生成 的 图 像 叫 做 特征 图 
( feature maps ), 可 以 理解 为 图 片 经 过 滤波 后 的 不 同 通道 (channels )。 


在 TensorFlow 的 程序 中 加 入 卷 积 层 是 非常 容易 的 。 最 常用 的 方 法 是 tf.nn.conv2d 
方法 ， 用 于 在 计算 图 中 加 入 2D 卷 积 算 子 。 简 单 的 用 法 如 下 : 


import tensorflow as tf 


# 输入 为 256 x 256 大 小 3 通道 的 彩色 图 片 
x = tf.placeholder (tf.float32, shape=[None, 256, 256, 3]) 
+ 卷 积 层 ， 卷 积 核 为 3x3， 输 出 32 通道 ， 滑 动 步 长 为 2， 边缘 向 外 填充 
conv = tf.nn.conv2d(x, filter-[3, 3, 3, 32], 

strides-[1, 2, 2, 1], 

padding='SAME') 
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tfnn.conv2d 的 输入 必须 是 4 维 tensor, 第 一 维 是 batch, 后 面 是 图 片 的 高 ( in. height )、 
宽 (in width) 和 通道 数 (in_channels )。 参 数 filter 是 指定 卷 积 核 ， 在 上 面 程序 中 指 
| 定 了 卷 积 核 大 小 为 3 x 3, 输入 图 像 是 3 通道 , 输出 32 通道 , 即 有 32 个 卷 积 核 。 strides 
| 指定 了 卷 积 核 的 滑动 步 长 ，padding 指定 了 边缘 处 理 方式 。 


4.24 池 化 〈Pooling) 

在 经 过 了 卷 积 层 提取 特征 以 后 , 得 到 的 特征 图 代表 了 比 像素 更 高 级 的 特征 , 已 经 
可 以 交 给 分 类 器 进行 训练 分 类 了 。 

但 是 等 等 ,好 像 有 哪里 不 对 ? 现在 特征 数 是 多 少 ? 每 一 组 卷 积 核 都 生成 一 幅 与 原 
图 像素 相同 大 小 的 特征 图 ， 节 点 数 一 个 也 没有 减少 。 不 仅 如 此 ， 为 了 提取 多 种 特征 ， 
多 卷 积 核 还 会 使 得 通道 数 比 之 前 更 多 ! 这 哪里 降 维 了 ,分明 是 升 维 嘛 ! 





别 慌 ， 降 维 的 关键 就 在 于 池 化 操作 。 


| MH RS AR ELA NIA HC HE AIR, RER EARR RT 
聚合 。 一 般 采 用 2 x 2 的 窗口 大 小 ,聚合 方 法 有 两 种 ， 一 种 是 取 最 大 值 ， 则 称 为 最 大 
| bt Cmax pooling )， 如 图 4-6 所 示 ， 另 一 种 是 取 平均 值 ， 称 为 平均 池 化 ( average 
。 pooling )。 对 于 窗口 为 2 x 2 的 池 化 操作 ， 处 理 完 的 图 像 长 和 宽 都 是 原 图 的 一 半 ， 也 就 
| 是 说 输出 图 的 尺寸 是 原 图 的 1/4。 


APE ce 
Hamn _ e 
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nnn" 


4-6 最 大 池 化 示意 图 





max(k, l, 
o, p) 








其 实 如 果 只 考虑 降 维 的 话 , 不 采样 也 能 达到 同样 的 目的 。 对 于 池 化 来 说 , 更 重要 
的 是 利用 最 大 值 或 平均 值 的 方法 ,使 特征 提取 拥有 “平移 不 变性 "( translation invariant )。 


Í 
| 
| 
| 
| 
j 
| 
j 
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也 就 是 说 ,即使 在 图 像 有 了 几 个 像素 的 位 移 的 情况 下 ,依然 可 以 获得 稳定 的 特征 集合 。 
平移 不 变性 对 于 图 像 识别 来 说 具有 非常 重要 的 意义 ,我 们 更 关心 有 哪些 特征 能 代表 目 
标 物体 本 身 ， 而 不 需要 精确 位 置 。 举 例 来 说 ， 要 判断 两 张 人 脸 照片 是 否 为 同一 个 人 ， 
可 能 由 于 角度 问题 , 五官 的 位 置 并 不 能 精确 的 一 一 对 应 ,即使 有 一 定 的 偏 移 , 我 们 还 
是 会 认为 是 同一 个 人 。 

卷 积 和 池 化 组 合 在 一 起 , 为 卷 积 神经 网 络 加 入 了 很 强 的 先 验 经 验 , 就 是 强调 图 片 
局 部 的 连续 性 和 相关 性 ,同时 保持 平移 不 变性 。 对 于 图 像 识别 来 说 , 这 样 的 先 验 经 验 
极为 有 效 。 


TensorFlow 中 原生 提供 了 最 大 池 化 和 平均 池 化 的 算 子 。2 x 2 窗口 的 最 大 池 化 代 
码 如 下 : 


pool = tf.nn.max pool(conv, ksize=[1, 2, 2, Tq 
i strides-[1, 2, 2, 1], padding='SAME') 


4.2.5 ReLU 


在 前 文 对 卷 积 的 介绍 中 提 到 了 卷 积 操作 实际 上 是 一 种 线性 操作 , 在 计算 上 仅 包 含 
乘法 和 加 法 。 而 在 机 器 学 习 领 域 最 重要 的 理论 基础 之 一 , 就 是 必须 要 将 一 个 特征 空间 
的 向 量 通 过 非 线 性 变换 映射 到 另 一 个 空间 中 才能 实现 线性 可 分 。 激活 函数 ( activation 
function ) 就 是 引入 非 线性 的 手段 。 


传统 的 sigmoid 函数 在 全 连接 神经 网 络 中 是 最 常用 的 ， 是 神经 网 络 中 最 为 核心 的 
步 又 之 一 。 从 数学 角度 来 说 ，sigmoid 函数 的 优势 是 其 导数 的 计算 非常 简单 ， 使 得 梯 
度 下 降 算法 可 以 以 极 低 的 代价 实施 。 然 而 ，sigmoid 函数 的 劣势 也 同样 明显 ， 那 就 是 
只 有 当 自 变量 zx 取 值 在 0 附近 时 ， 函 数 斜 率 才 比 较 大 ， 根 据 梯 度 调整 参数 才 会 有 比较 
好 的 效果 。 而 在 远离 中 心 的 两 侧 ， 函 数 斜 订 快 速 减 小 并 趋向 于 0， 导 致 “梯度 消失 ” 
问题 出 现 ， 收 敛 速度 极 慢 甚至 不 收敛 。 


为 了 解决 激活 函数 带 来 的 梯度 计算 问题 ,一 种 更 有 效 也 更 快速 的 激活 函数 被 引入 
到 神经 网 络 中 来 ， 那 就 是 ReLU (Rectified Liner Units )。 其 函数 形式 非常 简单 





f(x) 2 max(0,x) 
通过 图 4-9 中 展示 的 多 种 激活 函数 的 对 比 可 以 清晰 地 看 到 ，ReLU 和 sigmoid = 
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要 的 区 别 在 于 ReLU 的 取 值 范围 是 [0, co] ， 而 sigmoid 是 [0, 1]。 因 此 sigmoid 可 以 用 
于 拟 合 概率 ， 而 ReLU 可 以 将 取 值 映 射 到 所 有 正 数 域 。 


~= sigmoid 








图 4-9 激活 函数 图 形 对 比 





从 图 形 就 可 以 看 到 ,ReLU 和 sigmoid 主要 的 区 别 在 于 : sigmoid 是 [0, 1], 而 ReLU 
的 取 值 范围 是 [0, oo] ， 有 更 大 的 映射 空间 。 


ReLU 函数 的 导数 也 极其 简单 ， 几 乎 不 需要 计算 : 














0x«0 
Pul {r 

当 x 取 值 为 负数 ， 就 相当 于 直接 封闭 了 节点 。 而 当 x 大 于 0 时 ， 由 于 函数 导数 始 
终 是 1， 就 完全 避免 了 梯度 消失 的 问题 ， 保 证 参数 能 够 持续 收敛 。AlexNet 的 论文 中 
也 提 到 ,对 于 同一 个 网 络 结构 ,使 用 ReLU 作为 激活 函数 ,其 收敛 速度 要 比 使 用 tanh 
快 6 倍 以 上 。 

在 TensorFlow FH, t£nn.relu 是 ReLU 算 子 的 实现 。 它 只 有 一 个 参数 ， 就 是 输入 
tensor, tensor 的 元 素 类 型 必须 是 数值 型 。 此 外 ，TensorFlow 还 包含 了 ReLU 的 部 分 
变种 ,如 tinn.elu 是 实现 了 指数 线性 单元 ELU (Exponential Linear Units ), t£.nn.relu6 
是 将 ReLU 的 输出 限制 在 [0, 6] 的 区 间 内 。 


分 类 效果 好 、 收敛 速度 快 、 计 算 速度 快 , 这 些 优势 使 得 ReLU 成 为 现在 所 有 CNN 
模型 首选 必 备 的 激活 函数 。 
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4.2.0 ”多 层 卷 积 


在 第 1 章 中 曾经 提 到 过 , 深度 学 习 的 精髓 是 利用 多 层 特征 组 合 , 将 简单 的 特征 组 
合成 复杂 的 抽象 特征 。 深度 卷 积 网 络 也 是 如 此 , 整个 网 络 是 由 多 个 特征 提取 阶段 所 构 
成 的 。 每 一 个 阶段 都 由 三 种 操作 组 成 : 卷 积 、 池 化 和 非 线性 激活 函数 ( ReLU )。 这 种 
组 合 方式 能 够 逼近 复杂 的 非 线性 模型 函数 ,同时 又 能 够 以 较 简单 的 方式 训练 。 实 际 上 
多 个 卷 积 层 构成 的 网 络 所 能 表示 的 模型 函数 范围 与 单个 卷 积 层 的 表示 范围 是 相同 的 。 
伟 加 的 线性 函数 依旧 为 线性 函数 。 而 非 线性 函数 的 释 加 则 能 够 极 大 地 扩展 神经 网 络 所 
能 表示 的 函数 范围 。 

由 卷 积 操作 的 定义 可 知 。 在 不 填充 输入 数据 的 情况 下 , 卷 积 操作 后 图 像 输 出 结果 
败 十 将 变 小 。 由 此 可 以 组 成 一 个 金字 塔 状 的 结构 ， 随 着 层次 的 加 深 , 特征 图 的 尺寸 越 
来 越 小 ， 但 通道 数 变 得 越 来 越 多 ， 如 图 4-7 所 示 。 





图 4-7 卷 积 神经 网 络 的 金字 塔 结构 


在 比较 浅 的 层次 〈 离 原 图 距离 近 的 层次 )， 卷 积 会 提取 比较 细节 的 特征 ， 比 如 人 
脸 图 像 的 眼角 线条 、 嘴 唇 边缘 线条 等 。 而 在 越 深 的 层次 , 会 将 前 面 细节 特征 进行 二 次 
提取 和 组 合 ， 相 当 于 观察 的 视野 放大 ， 就 能 提取 更 完整 、 更 加 抽象 的 特征 ， 比 如 整个 
眼睛 、 整 个 鼻子 等 。 最 终 ， 由 全 连接 分 类 器 依照 最 抽象 的 特征 进行 分 类 ， 就 能 够 得 到 
比 直接 处 理 原 始 像素 图 要 好 得 多 的 结果 。 


4.2.7 Dropout 


过 拟 合 是 指 训练 结果 在 训练 集 与 测试 集 性 能 表现 差距 非常 大 的 情况 。 它 是 一 些 机 
器 学 习 算法 的 通病 。 这 往往 是 因为 反 向 传播 的 梯度 方向 与 训练 样本 高 度 相关 导致 的 。 
试想 花费 数 天 甚至 更 多 的 时 间 对 一 个 数 百 GB 的 数据 集 进行 训练 , 结果 测试 集 表现 很 
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差 。 这 时 候 发 现 训练 结果 过 拟 合 了 ,这 时 的 感觉 一 定 非常 糟糕 。 为 了 削减 和 抵消 过 拟 
合 所 造成 的 误差 ， 通 常会 采用 集成 学 习 (ensemble) 的 方式 , 将 多 个 表现 优秀 的 模型 
组 合 在 一 起 进行 预测 ， 一 般 都 会 增加 预测 的 准确 度 。ILSVRC 竞赛 中 的 获胜 队伍 基本 
就 都 是 采用 这 种 方式 。 然 而 ， 对 于 大 型 深度 神经 网 络 来 说 ， 集 成 方式 往往 代价 高 兄 ， 
每 一 个 模型 的 训练 都 要 消耗 大 量 的 计算 资源 , 集成 后 的 调 校 更 是 一 件 具 有 挑战 的 事情 。 


Dropout 是 深度 学 习 领 域 的 泰斗 级 科学 家 多 伦 多 大 学 的 Hinton 教 授 提出 的 去 过 拟 
合 技术 。 以 极 小 的 额外 代价 也 能 达到 集成 学 习 效果 的 方法 。 具 体 来 说 , 就 是 在 每 一 轮 
训练 的 过 程 中 ,随机 让 一 部 分 隐 层 节点 失效 ,这样 就 达到 了 改变 网 络 结 构 的 目的 , 但 
每 个 节点 的 权 值 都 会 被 保留 下 来 。 在 最 终 预 测 时 ,打开 全 部 隐 层 节点 ,使 用 完整 的 网 
络 进行 计算 ， 就 相当 于 把 多 个 不 同 结构 的 网 络 组 合 在 了 一 起 ， 如 图 4-8 所 示 。 





图 4.8 Dropout 在 每 一 轮训 练 时 都 随机 让 部 分 节点 失效 


由 于 隐 层 节点 是 随机 失效 的 ， 所 以 有 n 个 隐 层 节点 的 网 络 理论 上 就 会 产生 2" 个 不 
同 的 网 络 结构 。 并 且 由 于 不 能 保证 每 2 个 隐 含 节点 每 次 都 同时 出 现 , 就 削弱 了 节点 间 
的 联合 适应 性 , 使 得 权 值 的 更 新 不 再 依赖 于 有 固定 关系 的 隐 含 节点 的 共同 作用 , 增强 
了 泛 化 能 力 。 

著名 的 AlexNet 将 dropout 应 用 在 网 络 中 的 前 两 个 全 连接 层 。 虽然 需要 两 倍 的 氨 
代 次 数 才能 收敛 ， 但 是 若 不 用 dropout 的 话 就 会 导致 严重 的 过 拟 合 。 


4.3 经 典 CNN 模型 


Él 2012 年 AlexNet 问世 至 今 ， 几 乎 在 每 年 的 ILSVRC 大 赛 上 都 会 出 现 一 个 更 加 
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优秀 、 更 具有 统治 地 位 的 模型 出 现 ， 各 种 识别 准确 率 也 被 这 些 模 型 一 再 刷新 。 其 中 最 
知名 的 模型 有 AlexNet、GoogLeNet、 VGGNet 和 ResNet。 在 这 一 节 中 ， 着 重 介绍 一 
下 这 几 个 模型 的 TensorFlow 实现 。 


4.3.1 AlexNet 


AlexNet 由 深度 学 习 领 军人 物 之 一 Geoffrey Hinton 教授 的 学 生 Alex Krizhevsky 
提出 并 实现 ， 因 此 以 Alex 的 名 字 命 名 。AlexNet 可 以 说 是 一 个 具有 突破 性 意义 的 模 
W, 在 它 出 现 之 前 ， 神经 网 络 和 深度 学 习 都 陷入 了 长 时 间 的 瓶颈 期 ， 也 越 来 越 少 被 人 
提起 , 而 AlexNet 一 面世 ， 就 以 压倒 性 的 成 绩 战胜 所 有 对 F, 立刻 令 深 度 学 习 以 气 香 
山河 之 势 统治 了 整个 图 像 识别 领域 。 直 至 今日 ，AlexNet 依然 是 效果 出 色 并 具有 很 大 
启发 意义 的 网 络 结构 ， 我 们 就 从 这 里 开始 ， 一 闪 CNN 的 发 展 。 


AlexNet 的 整个 网 络 结构 由 8 层 神经 元 组 成 ， 其 中 前 5 层 为 卷 积 层 ， 用 于 提取 图 
形 特征 , 后 3 层 为 全 连接 层 , 用 于 图 像 分 类 。 整个 网 络 结构 一 眼看 上 去 就 是 我 们 前 面 
所 说 的 金字 塔 状 结构 ， 具 体 来 说 : 


1， 输 入 图 片 是 224 x 224 像 素 的 3 通道 照片 


2， 第 一 层 使 用 11 x 11 的 卷 积 核 ， 滑 动 步 长 为 4 个 像素 ， 输 出 96 个 特征 图 并 进 
行 最 大 池 化 ; 


3. 第 二 层 使 用 5 x 5 卷 积 核 ， 卷 积 产生 256 个 特征 图 ， 并 进行 最 大 池 化 ; 
4 第 三 层 、 第 四 层 均 使 用 3 x 3 卷 积 核 ， 输 出 384 个 特征 图 ， 
5 第 五 层 使 用 3 x 3 卷 积 核 ， 输 出 256 个 特征 图 ， 并 进行 池 化 ; 


6 第 六 层 、 第 七 层 为 全 连接 层 , 分别 包含 4096 个 隐 层 ， 也 就 是 说 ， 到 全 连接 层 
BY RF) 4096 个 特征 值 ; 


7. 最终， 第 八 层 为 softmax 层 ， 得 到 最 终 分 类 结果 。 


AlexNet 网 格 结构 如 图 4-10 所 示 。 
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4-10 AlexNet 网 络 结构 


在 AlexNet 中 着 重 提 到 , ReLU 和 dropout 也 起 到 了 非常 重要 的 作用 。 使 用 ReLU 
可 以 大 大 加 快 收敛 速度 ， 比 tanh 快 6 倍 。 而 dropout 达到 了 防止 模型 过 拟 合 的 效果 ， 
增强 了 模型 的 泛 化 能 力 。 


AlexNet 在 ILSVRC 2012 竞赛 中 的 top-5 识别 错误 率 是 15.3%， 比 上 一 年 冠军 识 
别 错误 率 的 成 绩 提高 了 十 几 个 百分点 ， 同 时 远 超 同年 的 第 二 名 。 


TensorFlow 官方 源码 中 以 AlexNet 作为 测试 系统 性 能 的 检验 程序 ， 并 给 出 了 
AlexNet 的 代码 实现 "， 下 面 代码 是 其 中 前 5 层 卷 积 层 的 模型 声明 代码 。 


def inference (images): 
"""Build the AlexNet model. 


Args: 
images: Images Tensor 


Returns: 
pool5: the last Tensor in the convolutional component of AlexNet. 
parameters: a list of Tensors corresponding to the weights and 
biases of the 
AlexNet model. 


nin 


parameters - [] 
+ conv1， 第 一 层 卷 积 层 
with tf.name scope('conv1') as scope: 
kernel = tf.Variable(tf.truncated normal([11, 11, 3, 64], 
dtype-tf.float32, 
stddev=le-1), 
name='weights') 


17 代码 网 址 : https://github.com/tensorflow/models/tree/master/tutorials/image/alexnet。 


8 
ww ai bot. com (1 HL D D] LU ia 


证 深度 学 习 原 理 与 TensorFlow 实践 


conv = tf.nn.conv2d (images, kernel, [1, 4, 4, 1], padding='SAME') 

biases = tf.Variable(tf.constant(0.0, shape=[64], dtype=tf. 
float32), 

trainable=True, name='biases') 

bias = tf.nn.bias_add(conv, biases) 

convl = tf.nn.relu(bias, name=scope) 

print activations (convl) 

parameters += [kernel, biases] 


# lrnl 

# TODO(shlens, jiayq): Add a GPU version of local response 
normalization. 

# 模型 中 应 加 入 local response normalization 标准 化 算法 ， 但 注释 中 标明 该 
操作 目前 还 没有 GPU 版 本 。 


# pool1， 第 一 层 卷 积 后 的 池 化 操作 

pooll = tf.nn.max_pool(convl, 
ksize=[1, 3, 3, 1], 
strides=[1, 2, 2, 1], 
padding-'VALID', 
name='pooll') 

print activations (pooll) 


# conv2， 第 二 层 卷 积 层 
with tf.name scope('conv2') as scope: 
kernel = tf.Variable(tf.truncated normal([5, 5, 64, 192], 
dtype-tf.float32, 
stddev-1e-1), name-'weights') 
conv = tf.nn.conv2d (pooll, kernel, [1, 1, 1, 1], padding='SAME') 
biases - tf.Variable(tf.constant(0.0, shape-[192], 
dtype-tf.float32), 
trainable-True, name='biases') 
bias - tf.nn.bias add(conv, biases) 
conv2 = tf.nn.relu(bias, name-scope) 
parameters += [kernel, biases] 
print activations (conv2) 


# Poo12， 第 二 层 卷 积 后 的 池 化 操作 

pool2 = tf.nn.max pool (conv2, 
ksize-[1, 3, 3, 1], 
strides-[1, 2, 2, 1], 
padding='VALID', 
name-'pool2') 
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* 

p 

: : : | 
print activations (pool2) | 


# conv3， 第 三 层 卷 积 层 
with tf.name scope('conv3') as scope: 
kernel - tf.Variable(tf.truncated normal([3, 3, 192, 384], 
dtype-tf.float32, 
stddev=le-1), 
name='weights') 
conv = tf.nn.conv2d(pool2, kernel, [1, 1, 1, 1], padding-'SAME') 
biases = tf.Variable(tf.constant (0.0, shape-[384], 
dtype-tf.float32), 
trainable-True, name-'biases') | 
bias - tf.nn.bias add(conv, biases) 
conv3 = tf.nn.relu(bias, name-scope) 
parameters += [kernel, biases] 
print activations (conv3) 


# conv4， 第 四 层 卷 积 层 
with tf.name scope('conv4') as scope: 
kernel = tf.Variable(tf.truncated normal([3, 3, 384, 256], 
dtype-tf.float32, 
stddev=le-1), 
name='weights') 
conv = tf£.nn.conv2d(conv3, kernel, (1, 1, 1, 1], padding-'SAME') 
biases = tf.Variable(tf.constant (0.0, shape-[256], 
dtype-tf.float32), 
trainable-True, name-'biases') 
bias = tf.nn.bias add(conv, biases) 
conv4 = tf.nn.relu(bias, name-scope) 
parameters += [kernel, biases] 
print activations (conv4) 


# conv5， 第 五 层 卷 积 层 
with tf.name scope('conv5') as scope: 
kernel = tf.Variable(tf.truncated normal([3, 3, 256, 256], 
dtype-tf.float32, 
stddev=le-1), 





name='weights') 
conv = tf.nn.conv2d(conv4, kernel, (1, 1, 1, 1], padding-'SAME') 
biases = tf.Variable(tf.constant (0.0, shape-[256], 
dtype-tf.float32), 
trainable-True, name-'biases') 
bias = tf.nn.bias add(conv, biases) 
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conv5 = tf.nn.relu(bias, name-scope) 
Parameters += [kernel, biases] 
print activations (conv5) 


* Poo15， 第 五 层 卷 积 后 的 池 化 操作 

pool5 = tf.nn.max pool(conv5, 
ksize=(1, 3, 3, 1], 
strides=[1, 2, 2, 1], 
padding-'VALID', 
name-'pool5') 

print activations (pool5) 


+ 返回 最 后 一 层 的 tensor， 和 全 部 参数 变量 


return pool5, parameters 


从 这 个 实现 看 到 程序 写 起 来 是 比较 虽 味 的 , 有 非常 多 相似 的 代码 段 。 从 工程 的 角 
度 来 说 , 消除 重复 代码 、 用 更 少 更 简洁 的 代码 实现 逻辑 是 一 贯 的 追求 。 以 下 就 是 使 用 
TFLeam 实现 的 版 本 , 全 部 代码 只 需要 不 到 40 行 , 包含 了 对 Oxford flowers17 数据 集 
的 训练 和 分 类 ， 充 分 体现 了 高 级 接口 的 易 用 性 。 


import tflearn 

from tflearn.layers.core import input data, dropout, 
fully connected 

from tflearn.layers.conv import conv 2d, max pool 2d 

from tflearn.layers.normalization import 
local response normalization 

from tflearn.layers.estimator import regression 


import tflearn.datasets.oxflowerl?7 as oxflowerl7 
X, Y = oxflowerl7.load data(one hot-True, resize pics-(227, 227)) 


f Building 'AlexNet' 

# 定义 输入 

network = input data(shape-[None, 227, 221, 31) 

# 第 一 层 卷 积 & 池 化 

network = conv 2d(network, 96, 11, strides-4, activation='relu') 
network - max pool 2d(network, 3, strides-2) 

network = local response normalization (network) 

+ 第 二 层 卷 积 & 池 化 

network = conv_2d(network, 256, 5, activation='relu') 
network = max pool 2d(network, 3, strides=2) 

network = local response normalization (network) 
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# 第 三 、 第 四 层 卷 积 
network = conv 2d(network, 384, 3, activation-'relu') 
network = conv 2d(network, 384, 3, activation-'relu') 


# 第 五 层 卷 积 & 池 化 


network - 


conv 2d(network, 256, 3, activation-'relu') 

network = max pool 2d(network, 3, strides-2) 

network = local response normalization (network) 

t 第 一 层 全 连接 层 ， 以 0.5 的 概率 进行 dropout， 也 就 是 每 次 训练 只 保留 一 半 节 点 
network = fully connected(network, 4096, activation-'tanh') 
network - dropout(network, 0.5) 

# 第 二 层 全 连接 层 


network = 


fully connected(network, 4096, activation-'tanh') 
network = dropout (network, 0.5) 

# 第 三 层 全 连接 层 ，softmax 输出 分 类 结果 

network = fully connected(network, 17, activation-'softmax') 
3 定义 优化 算法 、 损 失 函 数 等 

network = regression (network, optimizer-'momentum', 
loss-'categorical crossentropy', 

learning rate-0.001) 





ss 


# Training 
model = tflearn.DNN(network, checkpoint path-'model alexnet', 
max checkpoints-1, tensorboard verbose-2) 
# 全 部 数据 的 10$ 作 为 验证 集 ， 训 练 1000 轮 ， 每 一 批 放 入 64 条 样本 数据 
model.fit(X, Y, n epoch-1000, validation set-0.1, shuffle-True, 
show metric-True, batch size-64, snapshot step-200, 
snapshot epoch-False, run id-'alexnet oxflowersl17') 


使 用 TensorBoard 可 以 一 目 了 然 地 观察 完整 的 网 络 结构 ， 如 图 4-11 所 示 。 


AlexNet 开创 了 深度 学 习 的 时 代 , 大 数据 、GPU、ReLU 和 dropout 等 技术 都 为 它 
的 出 现 奠 定 了 坚实 的 基础 。 虽 然 现在 实际 应 用 中 基本 已 经 见 不 到 AlexNet， 但 我 们 依 
然 能 从 它 的 设计 中 吸收 很 多 重要 的 思想 ,比如 要 在 增加 网 络 复杂 度 的 同时 加 入 防止 过 
拟 合 的 措施 。 


93 4 
ww ai bbc. com [1 D DI U D U D 


"TE 深度 学 习 原 理 与 TensorFlow 实践 





图 4-11 TensorBoard 根据 代码 绘制 的 AlexNet 结构 
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4.3.2 VGGNets 


VGGNets 网 络 结构 诞生 自 牛津 大 学 视觉 几何 组 ( Visual Geometry Group), A 
此 依照 传统 以 作者 VGG 命名 。VGGNet 在 ILSVRC 2014 上 取得 了 图 像 分 类 第 二 名 、 | 
图 像 定位 第 一 名 的 成 绩 。 | 


从 网 络 设计 思路 上 来 说 ,VGGNet 是 继承 了 AlexNet 的 思路 ,以 AlexNet 为 基础 ， | 
尝试 建立 了 一 个 层次 更 多 .深度 更 深 的 网 络 。 其 网 络 结 构 一 样 可 以 由 8 个 层次 所 构成 ， | 
也 是 5 组 卷 积 层 、3 层 全 连接 层 。 最 主要 的 区 别 在 于 ，VGGNet 的 每 个 卷 积 层 并 不 是 
只 做 一 次 卷 积 操作 ， 而 是 连续 卷 积 2~4 次 。 结 构 上 的 差别 可 以 参见 表 4-1。 


表 4-1 AlexNet 5 VGGNets 的 网 络 结构 对 比 








AlexNet VGG16 VGG19 1 
(8 个 参数 层 ) (16 个 参数 层 ) (19 个 参数 层 ) | 
输入 224 x 224183: RGB 图 片 i 
conv11-96 conv3-64 conv3-64 
conv3-64 conv3-64 
max pooling 
conv5-256 conv3-128 conv3-128 
max pooling 












conv3-384 conv3-256 
conv3-256 


conv3-256 


conv3-256 
conv3-256 
conv3-256 
conv3-256 



















max pooling 
conv3-512 
conv3-512 
conv3-512 


conv3-384 conv3-512 
conv3-512 
conv3-512 


conv3-512 

























max pooling 
conv3-256 


conv3-512 conv3-512 conv3-512 
max pooling 


a ee ne 


full connected-4096 
full connected-4096 
full connected-1000 
softmax 


~ 一 一 





conv3-512 conv3-512 conv3-512 conv3-512 
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VGG16 和 VGG19 是 其 论文 介绍 效果 最 好 的 网 络 结构 。VGG19 的 意思 是 模型 中 
有 19 层 计算 含 参 数 并 可 以 被 训练 ， 包 括 16 层 卷 积 层 和 3 层 全 连接 层 。 


TFLearn 版 本 实现 的 VGG19 也 可 以 分 类 Oxford flowers 17， 代 码 如 下 : 





import tflearn 

fromtflearn.layers.core import input data, dropout, fully connected 
from tflearn.layers.conv import conv 2d, max pool 2d 

from tflearn.layers.estimator import regression 


# Data loading and preprocessing 
import tflearn.datasets.oxflowerl7 as oxflowerl?7 
X, Y = oxflowerl7.1oad data(one hot-True) 


# Building 'VGG Network' 
network - input data (shape-[None, 224, 224, 3]) 


network - conv 2d(network, 64, 3, activation='relu') 
network = conv 2d(network, 64, 3, activation='relu') 
network = max pool 2d(network, 2, strides=2) 


network = conv_2d(network, 128, 3, activation-'relu') 
network = conv_2d(network, 128, 3, activation='relu') 
network = max pool 2d(network, 2, strides=2) 


network = conv 2d(network, 256, 3, activation='relu') 
network - conv 2d(network, 256, 3, activation-'relu') 
network = conv 2d(network, 256, 3, activation-'relu') 
network = max pool 2d(network, 2, strides-2) 


network - conv 2d(network, 512, 3, activation-'relu') 
network - conv 2d(network, 512, 3, activation='relu') 
network - conv 2d(network, 512, 3, activation='relu') 
network = max pool 2d(network, 2, strides-2) 


network - conv 2d(network, 512, 3, activation='relu') 
network = conv_2d(network, 512, 3, activation='relu') 
network = conv_2d(network, 512, 3, activation='relu') 
network = max pool 2d(network, 2, strides=2) 


network - fully connected (network, 4096, activation='relu') 
network = dropout (network, 0.5) 
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network = fully connected(network, 4096, activation-'relu') : 
network dropout (network, 0.5) 
network = fully connected(network, 17, activation-'softmax') 


network = regression (network, optimizer-'rmsprop', 
loss-'categorical crossentropy', i 
learning rate-0.001) i 


# Training 

model = tflearn.DNN (network, checkpoint_path='model_vgg', 
max_checkpoints=1, tensorboard_verbose=0) 

model.fit(X, Y, n_epoch=500, shuffle=True, 


show_metric=True, batch_size=32, snapshot_step=500, 
snapshot_epoch=False, run_id='vgg_oxflowers17') 


VGG 官方 公布 了 caffe 和 matlab 版 本 的 定义 和 参数 ， 可 以 直接 下 载 。 使 用 训练 
好 的 参数 , 一 方面 可 以 直接 用 于 物体 检测 应 用 , 另 一 方面 也 可 以 构造 自己 的 模型 使 


用 迁移 学 习 (transfer learning ) 的 技术 ， 将 成 果 应 用 于 其 他 的 图 像 问题 。 使 用 参数 构 
造 的 图 像 特征 提取 网 络 的 实现 如 下 : 


def vggl9(input image): 


layers = ( 1 
'convl 1', 'convi 2', 'pooll', 
'conv2 1', 'conv2 2', 'pool2', 
‘conv3_1', 'conv3 2', 'conv3 3', 'conv3 4', 'pool3', 
'conv4 1', 'conv4_2', "conv4 3', 'convá 4', 'pool4', 
'conv5 1', 'conv5 2', 'conv$5 3', 'conv5 4', 'pool5', 


) 
params - loadmat ('imagenet-vgg-verydeep-19.mat') 
weights - params ['layers'] [0] 
network = input_image 
for i, name in enumerate (layers) : 
layer_type = name[:4) 
if layer type -- 'conv': 
kernels, bias = weights [i] [0] [0] (0] [0] 
# matconvnet weights:  [width, height, in channels, 





out channels] 

# tensorflow weights:  [height, width, (in channels, 
out channels] 

kernels = np.transpose (kernels, (1, 0, 2,.3)) 





18 VGGNets 网 络 参数 下 载 网 址 : http://www.robots.ox.ac.uk/-vgg/research/very deep/; 
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conv = tf.nn.conv2d (network, tf.constant (kernels), 
strides-(1, 1, 1, 1), padding='SAME', 
name-name) 
network = tf.nn.bias add(conv, bias.reshape(-1)) 
network - tf.nn.relu(network) 
elif layer type -- 'pool': 
network = tf.nn.max pool(network, ksize-(1, 2, 2, 1), 
strides-(1, 2, 2, 1), 
padding-'SAME') 
return network 
VGG 最 主要 的 贡献 就 是 展示 了 当 卷 积 网 络 的 深度 不 断 加 深 时 ， 是 可 以 将 识别 准 
确 度 提高 到 更 高 水 平 的 。 并 且 ， 全 部 使 用 3 x 3 的 卷 积 核 也 可 以 在 保证 特征 提取 效果 
的 同时 减少 参数 数量 ， 使 计算 代价 更 小 、 收 敛 速度 更 快 。 


4.3.3 GoogLeNet & Inception 


GoogLeNet 是 男 一 个 在 ILSVRC 2014 上 大 放 异 彩 的 模型 ， 从 命名 就 能 看 出 来 是 
出 自 Google 之 手 。 它 与 VGGNet 在 ILSVRC 2014 上 可 谓 平分 秋色 , 是 图 像 分 类 问题 
的 冠军 。 


通过 VGGNets 的 介绍 我 们 了 解 到 ， 如 果 网 络 的 层 数 更 多 、 深 度 更 深 ， 就 会 得 到 
更 好 的 结果 。 但 是 随 着 模型 越 来 越 复杂 、 参 数 越 来 越 多 ， 也 会 面临 很 多 问题 。_- 方 面 
是 更 复杂 的 网 络 需要 更 多 的 数据 才能 有 更 好 的 效果 , 否则 就 比较 容易 过 拟 合 。 另 一 方 
面 ， 复 杂 的 网 络 意味 着 更 大 的 计算 量 ， 这 对 于 应 用 来 说 是 非常 不 利 的 。 在 一 些 对 实时 
性 要 求 非常 高 的 应 用 中 ， 比 如 自动 驾驶 ， 要 求 参数 足够 少 、 计 算 速 度 足够 快 。 所 以 ， 
减少 参数 也 是 一 个 重要 的 课题 。 因 此 ， 为 了 能 更 有 效 地 扩展 网 络 的 复杂 度 ， Google 
的 大 神 们 启动 了 Inception 项 目 ,GoogLeNet 就 是 Inception 的 第 1 个 版 本 。 目 前 Inception 
已 经 发 布 了 4 个 版 本 ， 下 面 进行 逐一 介绍 。 


正如 前 面 在 对 比 AlexNet 和 VGGNets 的 结构 时 提 到 的 ， 对 于 卷 积 核 大 小 的 选择 
是 需要 经 验 和 大 量 实验 才能 确定 的 ， 到 底 是 选 3 x 3 呢 ， 还 是 5 x 5 或 者 7 x 7? 并 没有 
一 种 明确 的 思路 。Inception 的 做 法 是 跳出 直线 加 深 网 络 层 数 的 思路 ,通过 增加 “宽度 ” 
的 方式 增加 网 络 的 复杂 度 , 避免 陷 入 卷 积 核 选择 的 陷阱 ,让 程序 自己 学 习 如 何 选择 卷 
积 核 。 具 体 来 说 ， 是 在 每 一 个 卷 积 层 中 ， 并 行使 用 1 x 1 卷 积 、3 x 3 卷 积 、5 x 5 卷 积 
和 池 化 , 同时 提取 不 同 尺度 的 特征 , 然后 通过 1 x 1 的 卷 积 对 每 一 个 分 支 进行 降 维 后 ， 
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最 后 将 结果 合并 拼接 在 一 起 。 直 观 地 看 起 来 , 好 像 结构 复杂 了 很 多 ,本 来 只 要 一 两 个 
卷 积 就 能 完成 的 计算 , 现在 却 要 使 用 四 五 种 不 同 的 操作 。 但 是 仔细 分 析 可 以 发 现 , 这 
样 的 设计 不 仅 减少 了 参数 的 数量 ， 而 且 由 于 增加 了 网 络 的 “宽度 ”， 网 络 对 多 种 尺度 
特征 的 适应 性 更 好 了 。GoogLeNet 中 的 block 结构 如 图 4-12 所 示 。 





图 4-12. GoogLeNet 中 的 block 结构 


在 这 个 结构 中 ，1 x 1 卷 积 扮演 了 非常 重要 的 角色 。1 x 1 卷 积 并 没有 对 图 像 本 身 
产生 什么 影响 , 在 数学 上 仅仅 是 最 简单 的 矩阵 乘法 操作 , 其 最 重要 的 作用 在 于 降低 特 
征 图 的 数量 以 达到 降 维 的 目的 。 由 于 有 了 1 x 1 卷 积 的 存在 ， 才 使 得 网 络 在 不 增加 参 
数 数量 级 的 情况 下 可 以 增加 复杂 度 。 


GoogLeNet 当年 在 图 像 分 类 问题 上 的 准确 率 无 出 其 右 ,top-5 错误 率 只 有 6.67%。 
相 比 于 VGGNets, GoogLeNet 在 内 存 和 计算 消耗 方面 都 有 非常 大 的 优势 。AlexNet 
有 超过 6000 万 个 权 值 参数 ,VGGNets 的 参数 则 是 AlexNet 的 三 倍 以 上 ,而 GoogLeNet 
只 有 500 万 个 参数 。 所 以 在 内 存 受 限 的 环境 中 ,比如 移动 设备 上 ，GoogLeNet 具有 更 
广阔 的 应 用 空间 。 完 整 的 GoogLeNet 模型 结构 如 图 4-13 所 示 。 
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图 4-13 完整 的 GoogLeNet 模型 结构 


Inception-v2 是 在 第 一 代 的 GoogLeNet 基础 上 加 入 了 批 标准 化 ( Batch 
Normalization ) 技术 。Batch Normalization 可 以 说 是 Local Response Normalization 的 
升级 版 , 是 加 快 收敛 速度 的 利器 , 使 用 它 能 在 不 改变 网 络 结构 的 情况 下 以 更 少 的 迭代 
次 数 达到 同样 的 收敛 效果 。 其 具体 做 法 是 , 对 mini-batch 中 的 所 有 信号 量 进行 统一 的 
一 化 ,使 得 一 个 批 次 中 所 有 信号 量 符合 均值 为 0、 方差 为 1 的 高 斯 分 布 。 这 样 可 以 

减少 因 梯 度 弥 散 " 而 导致 的 收敛 速度 缓慢 。 作 为 Google 自家 原创 的 操作 ，batch 
normalization 自然 也 是 TensorFlow 的 官方 标 配 。 在 代码 中 直接 使 用 
tf.nn.batch normalization 就 可 以 加 入 该 算 子 。 一 般 在 使 用 时 ，batch-norm 要 在 激活 函 
数 之 前 ， 否 则 其 作用 会 打 一 定 的 折扣 。 


Inception 系列 的 第 3 版 inception-v3 在 之 前 的 版 本 上 又 有 提高 。 其 最 核心 的 思想 
是 将 卷 积 操作 继续 分 解 成 更 小 的 卷 积 核 。 首 先 ， 借 鉴 VGGNets 的 思路 ，5 x 5 的 卷 积 
可 以 由 连续 2 层 3 x 3 卷 积 所 蔡 代 ， 这 样 既 减少 了 参数 数量 ， 也 进一步 加 快 了 计算 速 
度 。 其 次 ，3 x 3 的 卷 积 也 还 可 以 再 分 解 为 非 对 称 的 1 x 3 和 3 x 1 两 层 卷 积 操作 。 在 经 
过 这 样 的 转换 之 后 , 不 但 参数 数量 再 次 减少 , 计算 速度 更 快 ， 而且 网 络 的 深度 也 加 深 
T, 增加 了 非 线性 表达 能 力 。 同 样 以 ImageNet 数据 集 作为 检验 标准 ， inception-v3 的 
top-1 错误 率 只 有 17.296, top-5 错误 率 更 是 只 有 惊人 的 3.58% ,真正 是 比 人 类 还 要 精准 ! 


TensorFlow 的 官方 教程 中 演示 了 inception-v3 模型 的 使 用 方法 2 并 配 有 教程 文档 :1L。 
代码 中 只 有 一 个 文件 classify_image.py, 该 程序 运行 已 经 训练 好 的 inception-v3 对 图 片 


19 梯度 弥散 : 当 使 用 反 向 传播 计算 导数 的 时 候 ， 随 着 传播 层 数 的 增多 ， 误 差 增 大 ， 梯 度 急剧 
减 小 ， 导 致 网 络 最 初 几 层 参数 的 修正 幅度 趋 近 于 0， 不 能 从 样本 中 得 到 充分 学 习 。 

20 Inception-v3 示例 代码 :https://github.com/tensorflow/models/tree/master/tutorials/ image/imagenet。 

21 官方 教程 文档 : https://tensorflow.org/tutorials/image_recognition/。 
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进行 分 类 ， 判 断 图 像 物体 的 类 别 。 


from future _ import absolute import 
from _ future import division 
from future import print function 


import argparse 
import os.path 
import re 
import sys 
import tarfile 


import numpy as np 
from six.moves import urllib 
import tensorflow as tf 


FLAGS - None 


# pylint: disable-line-too-long 

DATA URL - 'http://download.tensorflow.org/models/image/imagenet/ 
inception-2015-12-05.tgz' 

* pylint: enable=line-too-long 


# NodeLookup 类 的 作用 是 将 分 类 器 输出 的 类 别 编号 与 人 类 可 读 的 标签 名 称 对 应 起 来 
# 例如 分 类 1 对 应 的 类 别 编 号 为 n02119789， 文 字 标签 为 "kit fox, Vulpes 
macrotis" 
class NodeLookup (object): 
"""Conyerts integer node ID's to human readable labels.""" 
def init (self, 
label lookup path-None, 
uid lookup path-None): 
if not label lookup path: 
label lookup path - os.path.join( 
FLAGS.model dir, 
'imagenet 2012 challenge label map proto.pbtxt') 
if not uid lookup path: 
uid lookup path - os.path.join( 
FLAGS.model dir, 
'imagenet synset to human label map.txt') 
self.node lookup - self.load(label lookup path, uid lookup 





path) 
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def load(self, label lookup path, uid lookup path): 
"""Loads a human readable English name for each softmax node. 


Args: 
label lookup path: String UID to integer node ID. 
uid lookup path: string UID to human-readable string. 


Returns: 
dict from integer node ID to human-readable string. 

"nu 

if not tf.gfile.Exists(uid lookup path): 
tf.logging.fatal('File does not exist $s', uid lookup path) 

if not tf.gfile.Exists(label lookup path): 
tf.logging.fatal('File does not exist %s', label lookup path) 


* Loads mapping from String UID to human-readable string 
proto as ascii lines - tf.gfile.GFile(uid lookup path). 
readlines () 
uid_to_human = {} 
P = re.compile(r'[n\d]*[ XS,]*') 
for line in proto as ascii lines: 
parsed items - p.findall(line) 
uid = parsed items[0] 
human string = parsed items[2] 
uid to human[uid] - human string 


# Loads mapping from String UID to integer node ID. 
node id to uid = {} 
proto as ascii = 
tf.gfile.GFile(label lookup path).readlines() 
for line in proto as ascii: 
if line.startswith(' target class:'): 
target class - int(line.split(': ') [1]) 
if line.startswith(' target class string:'): 
target class string = line.split(': ') [1] 
node id to uid[target class] = target class string[1:-2] 


* Loads the final mapping of integer node ID to human-readable 
string 
node id to name = {} 
for key, val in node id to uid.items(): 
if val not in uid to human: 
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tf.logging.fatal('Failed to locate: %s', val) 1 
name = uid to human[val] [ 
node id to name[key] = name 


return node id to name 


def id to string(self, node id): 
if node id not in self.node lookup: 
return '' 


return self.node lookup[node id) 


* A protocol buffer 文件 中 反 序 列 化 出 inception-v3 模型 及 参数 
def create graph(): 
"""Creates a graph from saved GraphDef file and returns a saver.""" 
# Creates graph from saved graph def.pb. 
with tf.gfile.FastGFile(os.path.join( 
FLAGS.model dir, 'classify image graph def.pb'), 'rb') as f: 
graph def - tf.GraphDef() 
graph def.ParseFromString(f.read()) 


_ = tf.import graph def(graph def, name='') 
# 使 用 模型 对 image 图 片 进 行 分 类 ， 输 出 top-5 置信 度 的 类 别 预测 


def run inference on image (image): 
"""Runs inference on an image. 


Args: 


image: Image file name. 


Returns: 
Nothing 
if not tf.gfile.Exists (image): 
tf.logging.fatal('File does not exist %s', image) 
image data - tf.gfile.FastGFile(image, 'rb').read() 


# Creates graph from saved GraphDef. 
create graph() 


with tf.Session() as sess: 
# Some useful tensors: 
# 'softmax:0': A tensor containing the normalized prediction 





across 
# 1000 labels. 
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# "pool 3:0': A tensor containing the next-to-last layer 


containing 2048 

# float description of the image. 

# 'DecodeJpeg/contents:0': A tensor containing a string 
providing JPEG 

# encoding of the image. 

* Runs the softmax tensor by feeding the image data as input to 
the graph. 
Softmax tensor - Sess.graph.get tensor by name('softmax:0') 
predictions - sess.run(softmax tensor, 

('DecodeJpeg/contents:0': image data]) 


predictions - np.squeeze (predictions) 


$ Creates node ID --» English string lookup. 
node lookup = NodeLookup () 


top k= predictions.argsort () [-FLAGS.num top predictions:][::-1] 
for node id in top k: 

human string - node lookup.id to string(node id) 

Score = predictions[node id] 

print('$s (score = $.5f)' $% (human string, score)) 


# 下 载 模型 存档 并 解压 
def maybe download and extract(): 
"""Download and extract model tar file.""" 
dest directory - FLAGS.model dir 
if not os.path.exists(dest directory): 
os.makedirs (dest directory) 
filename - DATA URL.split('/')[-1] 
filepath - os.path.join(dest directory, filename) 
if not os.path.exists(filepath): 
def progress (count, block size, total size): 
sys.stdout.write('\r>> Downloading $s %.1£%%' $ ( 
filename, float (count * block size) / float(total size) * 


100.0)) 
Sys.stdout.flush() 
filepath, _ = urllib.request.urlretrieve (DATA URL, filepath, 
.Progress) 
print () 


statinfo - os.stat(filepath) 
print('Successfully downloaded', filename, Statinfo.st size, 


'bytes.') 
tarfile.open(filepath, 'r:gz').extractall(dest directory) 


à 104 
ww ai bbt. com [1 [1 [1 D UO U 


4 CNN "Efü" HR T 


def main(_): 
maybe_download_and_extract () 
image = (FLAGS.image_file if FLAGS.image_file else 
os.path.join(FLAGS.model dir, 'cropped panda.jpg')) 
run inference on image (image) 

上 述 程 序 会 先 从 网 上 下 载 inception-v3 模型 的 存档 文件 ， 其 中 包含 计算 图 
GraphDef 的 序列 化 文件 ， 以 及 模型 分 类 编号 与 人 类 可 读 的 文字 标注 的 映射 表 。 直 接 
运行 程序 的 话 ， 会 对 一 张萌 萌 的 熊猫 图 片 进行 识别 。 

$ python classify image.py 


>> Downloading inception-2015-12-05.tgz 100.0$ 
Succesfully downloaded inception-2015-12-05.tgz 88931400 bytes. 


giant panda, panda, panda bear, coon bear, Ailuropoda melanoleuca 
(score = 0.89233) 

indri, indris, Indri indri, Indri brevicaudatus (score - 0.00859) 

lesser panda, red panda, panda, bear cat, cat bear, Ailurus fulgens 
(score = 0.00264) 

custard apple (score = 0.00141) 

earthstar (score - 0.00107) 

结果 显示 , 图 片 是 大 熊猫 的 可 能 性 是 89.2%， 狐 猴 的 可 能 性 是 0.8%， 小 熊猫 的 可 
能 性 是 0.2%， 南 美 番 荔 枝 或 地 星 (一 种 真菌 ) 的 可 能 性 为 0.1%。 模 型 预测 图 片 是 其 
他 类 别 的 概率 比 0.1% 更 小 ， 没 有 显示 。 


在 感受 模型 识别 能 力 强劲 的 同时 ， 在 这 个 示例 代码 中 还 有 一 点 值得 注意 的 是 ， 
create_graph() 函 数 展 示 了 TensorFlow 的 模型 可 以 直接 通过 protocol buffer 格式 文件 的 
反 序 列 化 得 到 。 本 例 中 ， 模 型 被 完整 保存 在 classify image graph defpb 文件 中 ， 反 
序列 化 成 GraphDef 对 象 ， 设 置 为 系统 默认 计算 图 就 可 以 使 用 了 。 这 个 过 程 中 有 两 个 
比较 重要 的 函数 ，Graph.as_graph_deft0 可 以 得 到 计算 图 对 象 序列 化 后 的 字 节 流 ， 而 
GraphDef ParseFromString() 方 法 可 以 从 缓冲 区 中 反 序 列 化 出 GraphDef 对 象 。 这 种 方 
式 使 用 起 来 是 非常 便利 的 , 代码 中 并 不 需要 再 声明 一 遍 网 络 结构 , 节省 了 代码 调试 时 
间 ， 也 避免 了 不 必要 的 错误 。 


Inception-v4 是 Inception 系列 的 最 新 版 本 ， 在 设计 上 充分 借鉴 了 ResNet 残 差 网 
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络 ， 在 大 大 提高 训练 速度 的 同时 也 进一步 提升 了 预测 准确 家 。 接 下 来 就 介绍 解决 了 梯 
度 弥散 问题 的 ResNet。 


4.3.4 ResNets 


回顾 2016 年 计算 机 视觉 领域 的 发 展 成 果 ， 微软 亚洲 研究 院 的 何 恺 明博 士 及 他 所 
在 的 微软 亚洲 研究 院 MSRA 团队 推出 的 深度 残 差 网 络 ResNets 是 最 大 的 亮点 。 其 最 
大 的 贡献 就 是 通过 设计 一 种 残 差 网 络 的 结构 , 避免 了 随 着 网 络 层 数 加 深 而 产生 的 梯度 
消失 或 梯度 爆炸 的 问题 ， 不 但 使 深度 神经 网 络 的 收敛 速度 更 快 、 精 度 更 高 , 而 且 让 加 
深 网 络 深度 成 为 可 能 。 


对 于 深度 神经 网 络 来 说 , VGGNets 证 明 了 加 深 网 络 层 次 是 提高 精度 的 有 效 手段 ， 
但 是 由 于 梯度 浆 散 的 问题 导致 网 络 深度 无 法 持续 加 深 。 梯 度 弥散 问题 是 由 于 在 反 向 传 
播 过 程 中 误差 不 断 累 积 ， 导致 在 最 初 的 几 层 梯度 值 几乎 为 0， 从 而 无 法 收敛 。 经 过 测 
试 ，20 层 以 上 的 深层 网 络 ， 会 随 着 讨 数 的 增加 ， 收 敛 效果 越 来 越 差 ，50 层 的 网 络 是 
20 层 网 络 所 得 错误 率 的 一 倍 。 何 恺 明博 士 将 这 一 现象 称 为 深度 网 络 的 退化 问题 
( degradation problem )。 


退化 问题 其 实说 明 , 不 是 所 有 的 系统 都 能 很 容易 地 被 优化 。 难道 网 络 的 深度 的 增 
加 就 到 此 为 止 了 么 ? ResNets 告诉 我 们 残 差 网 络 是 一 种 避免 梯度 消失 的 更 容易 优化 的 结构 。 


熟悉 机 器 学 习 算法 的 都 能 理解 ， 神经 网 络 实际 上 是 将 一 个 空间 维度 的 向 量 x， 经 
过 非 线 性 变换 H(x) 映 射 到 另外 一 个 空间 维度 中 。 但 通过 前 面 的 观察 会 意识 到 H(x) 非 
常 难以 优化 ,所 以 这 里 尝试 转 而 求 #H(x) 的 残 差 形式 F(x) = A(x) 一 x。 假设 求解 F(x) 
会 比 求 H(x) 要 简单 一 些 的 话 ， 就 可 以 通过 F(x) + x 来 达到 最 终 的 目标 。 图 4-14 展示 
了 和 残 差 网 络 的 单元 结构 ， 称 之 为 残 差 块 (residual block )。 
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图 4-14 FRIES residual block 
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从 实际 实验 的 结果 来 看 ， 残 差 网 络 的 效果 是 非常 明显 的 。 如 论文 里 所 说 ， 类 似 
VGGNet 的 结构 在 超过 20 个 参数 层 以 后 ， 收 敛 效果 会 大 打折 扣 ， 准 确 率 比较 差 ， 但 
是 简单 地 加 入 一 些 “ 捷 径 ”( shortcut ) 连接 边 后 ， 使 其 转变 为 残 差 结构 ， 收 敛 效果 都 
极 具 提高 , 精度 也 随 着 训练 次 数 的 增加 持续 提高 , 并 且 不 断 加 深 网 络 深度 还 可 以 继续 
提高 准确 率 ， 残 差 网 络 与 VGG 结构 的 对 比如 图 4-15 所 示 。 
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图 4-15 REMBS VGG 结构 对 比 
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凭借 出 色 的 表现 ，ResNet 在 ILSVRC 2015 竞赛 中 一 举 斩 获 了 5 个 项 目的 冠军 ， 
并 以 图 像 分 类 top-5 错误 率 仅 3.57% 的 成 绩 傲视 群雄 。 


TFLeam 版 本 的 ResNets 程序 示例 如 下 ,可 以 用 于 处 理 mnist 或 者 cifar10 数 据 集 。 


import tflearn 
import tflearn.data utils as du 


# 加 载 数据 并 做 预 处 理 

import tflearn.datasets.mnist as mnist 

X, Y, testX, testY - mnist.load data (one hot-True) 
X = X.reshape([-1, 28, 28, 1]) 

testX - testX.reshape([-1, 28, 28, 1]) 

X, mean - du.featurewise zero center(X) 

testX - du.featurewise zero center (testx, mean) 


# 构建 残 差 网 络 模型 
net = tflearn.input data (shape-[None, 28, 28, 1]) 
net - tflearn.conv 2d(net, 64, 3, activation-'relu', bias-False) 
# 使 用 Bottleneck 结构 构建 残 差 块 
net = tflearn.residual bottleneck (net, 3, 16, 64) 
net -tflearn.residual bottleneck (net, 1, 32, 128, downsample-True) 
net = tflearn.residual bottleneck (net, 2, 32, 128) 
net = tflearn.residual bottleneck (net, 1, 64, 256, downsample-True) 
net - tflearn.residual bottleneck (net, 2, 64, 256) 
net - tflearn.batch normalization (net) 
net = tflearn.activation (net, "relu') 
net = tflearn.global_avg_pool (net) 
net = tflearn. fully connected (net, 10, activation='softmax') 
# 声明 优化 算法 、 损 失 函 数 、 学 习 率 等 
net = tflearn.regression (net, optimizer-'momentum', 
loss-'categorical crossentropy', 
learning rate-0.1) 
* 训练 
model = tflearn.DNN (net, checkpoint path-'model resnet mnist', 
max checkpoints-10, tensorboard verbose-0) 
model.fit(X, Y, n epoch-100, validation set-(testX, testY), 
Show metric-True, batch size-256, run id-'resnet mnist') 


ResNets 的 成 功 ， 使 整个 卷 积 神经 网 络 的 研究 上 了 一 个 新 的 台阶 ，inception 也 将 
残 差 结构 融入 其 中 ， 实 现 了 更 优秀 的 模型 inception-v4。 在 图 像 风 格 化 的 应 用 中 ， 我 
们 也 还 会 见 到 残 差 网 络 的 运用 。 
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在 2015 年 的 NIPS 会 议 上 ， 一 篇 由 德国 图 宾 根 大 学 的 Leon A. Gatys 等 人 发 表 的 
名 为 4 Neural Algorithm of Artistic Style 的 论文 引起 了 大 家 极 大 的 兴趣 。Gatys 的 工作 
是 运用 深度 学 习 的 方法 将 普通 的 照片 与 艺术 画作 进行 融合 , 使 照片 看 起 来 具有 名 画 的 
画 风 。 最 典型 的 就 是 将 普通 的 风景 照片 泻 染 成 梵 高 著名 作品 《星夜 六 The Starry Night ) 
HER, 成 品 图 在 照片 内 容 的 基础 上 , 融合 了 深蓝 与 明黄 混合 的 色调 和 《星夜 ) 中 极 
具 代表 性 的 流 涡 般 扭 曲 的 纹理 。 不 同 于 以 往 的 滤 镜 , 经 过 论文 中 深度 学 习 方 法 的 处 理 
后 ， 原 图 的 画面 产生 了 大 规模 的 改变 ， 为 人 们 带 来 了 各 种 梦幻 般 的 视觉 体验 ， 如 图 
4-16 所 示 。 





图 4-16 将 风景 画 转换 为 《星夜 》 风 格 的 艺术 作品 


其 实 所 谓 “ 绘 画 风 格 "， 是 一 个 十 分 抽象 的 概念 。 人 们 讨论 绘画 风格 更 多 的 是 在 
描述 某 一 个 画家 或 者 画 派 的 作品 所 共同 拥有 的 特点 ， 不 同 的 风格 有 许多 不 同 的 特征 ， 
可 能 是 色彩 , 可 能 是 笔触 ,也 可 能 是 图 画 表 达 的 深层 次 的 内 涵 。 那 这 种 无 法 准确 描述 
的 概念 ， 让 以 数学 为 基础 的 计算 机 如 何 模仿 ? Gatys 在 论文 中 给 出 了 一 种 很 有 趣 的 答 
案 一 一 捕捉 画 中 的 纹理 信息 。 从 上 面 《星夜 》 的 例子 中 就 能 看 出 ， 只 要 是 颜色 和 线条 
符合 了 画 的 特征 ， 就 可 以 让 人 很 明显 地 感觉 到 有 画作 的 风格 。 | 


4.4.1 量化 的 风格 


通过 前 面 章节 的 介绍 我 们 知道 ,CNNs 可 以 通过 多 层 卷 积 操作 来 提取 物体 的 抽象 
特征 ， 并且 在 物体 识别 方面 取得 了 惊人 的 成 绩 。 而 Gatys 等 作者 则 是 另辟蹊径 ,开辟 
了 另 一 个 深度 卷 积 网 络 的 应 用 场景 一 一 纹理 合成 ( texture synthesis ) 和 风格 迁移 ( style 


transfer )。 
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对 于 一 个 已 经 训练 好 的 深度 卷 积 网 络 来 说 ， 每 一 个 卷 积 操作 所 得 的 特征 图 都 是 对 
图 像 中 某 方面 的 特征 的 提取 结果 。 随 着 层次 的 加 深 , 网 络 提取 出 的 特征 更 抽象 ,特征 
数量 也 更 少 ,更 能 代表 物体 本 身 。 因 此 ， 网 络 的 高 层 所 得 到 的 特征 结果 集合 ,可 以 认 
为 是 图 像 内 容 的 量化 表示 。 


在 Gatys 的 论文 中 ， 定义 了 神奇 的 格拉 姆 矩阵 (Gram matrix )， 用 于 捕获 了 绘画 
中 的 纹理 特征 。 格 拉 姆 矩阵 是 一 组 向 量 的 内 积 的 对 称 矩 阵 , 在 这 里 的 计算 方法 是 将 所 
有 特征 图 矩阵 矢量 化 后 , 求 其 内 积 之 和 , 它 代表 了 不 同 滤波 器 所 得 结果 之 间 的 相关 性 。 
在 这 种 高 阶 的 统计 方法 之 上 , 像素 级 的 特征 全 部 都 被 丢弃 , 甚至 全 局 的 场景 信息 也 都 
没有 保留 ， 仅 存 了 高 级 的 绘画 风格 。 在 这 种 量化 方法 下 ， 不 同 种 类 的 纹理 得 以 区 分 ， 
甚至 可 以 被 逼近 。 

图 4-17. 用 更 直观 的 方式 表现 了 深度 卷 积 网 络 在 不 同 阶段 所 提取 的 特征 的 区 别 。 
对 于 VGGNet 这 样 的 5 层 的 卷 积 网 络 , 特征 图 的 尺寸 会 越 来 越 小 , 通道 数 越 来 越 多 。 
通过 反 卷 积 之 类 的 图 像 重 建 操作 ， 可 以 将 不 同 层次 的 特征 图 重建 成 一 幅 完 整 的 图 像 。 
对 于 层次 较 浅 ( 靠近 输入 ) 的 层 ， 如 图 中 的 a，b，e 层 ， 其 重建 的 图 像 与 原 图 看 不 出 
有 多 大 的 差别 。 而 对 于 更 深 的 层 重建 的 图 像 ， 就 与 原 图 有 较 大 的 差别 ， 虽 然 还 能 看 出 
是 房屋 的 图 案 , 但 像素 都 已 经 被 打 散 ,不 再 是 规则 的 图 形 。 另 一 方面 ,将 《星夜 放 
入 卷 积 网 络 ， 通 过 纹理 合成 (Texture synthesis) 等 重建 方法 也 生成 一 系列 的 图 ， 则 可 
以 看 到 在 比较 浅 的 层次 主要 还 是 细碎 的 、 颜色 鲜明 的 点 , 随 着 层次 的 加 深 , 逐渐 出 现 
了 大 片 的 、 具 有 显著 风格 的 形状 和 纹理 。 


既然 图 像 内 容 物体 和 绘画 风格 都 已 经 有 了 量化 表示 ， 那 将 二 者 融合 就 成 了 一 个 优 
化 问题 。 合 成 图 需要 在 内 容 维度 上 必须 逼近 照片 , 原 图 中 是 房屋 ， 在 合成 图 中 依然 要 
看 得 出 是 房屋 。 同 时 在 风格 维度 上 逼近 绘画 ， 要 以 《星夜 》 中 最 具 代表 性 的 颜色 和 纹 
理 布 满 整个 画面 。Gatys 等 人 的 这 篇 论文 的 核心 ， 就 是 利用 预先 训练 好 的 VGGNet 来 
提取 图 片 中 内 容 及 风格 的 数值 化 特征 ， 然后 定义 了 一 种 特殊 的 损失 函数 来 评估 合成 图 
片 符合 “风格 ”的 程度 , 再 然后 使 用 梯度 下 降 的 方 法 来 不 断 修 正 合成 图 的 各 个 像素 以 
使 损失 值 变 小 。 当 损失 值 最 小 的 时 候 ， 便 是 我 们 期 望 的 “名 画 版 照片 ”。 
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4-7. VGG 网 络 在 风格 和 内 容量 化 提取 中 的 作用 


具体 来 说 ， 损 失 函 数 是 基于 VGGNet 中 的 特征 图 来 构建 的 。 损 失 函 数 由 两 部 分 
构成 ， 一 部 分 是 内 容 损 失 Ceontent， 另 一 一 部 分 是 风格 损失 Lstyle。 其 中 ， 内 容 损 失 Lcontent 
为 照片 与 合成 图 在 VGG19 中 relu4_2 层 输 出 的 特征 图 中 每 个 元 素 的 差 的 平方 和 。 


content (P, X, D- 二 zd m Pi)? 
其 中 x 分 别 代表 原始 内 容 图 和 生成 图 ，F! 和 P! 表 示 它 们 在 | 层 的 特征 图 ，! 实 
际 上 代表 VGG19 中 的 relu4_2 层 。 


风格 损失 Lseyie 是 风格 图 与 合成 图 以 relul_1, relu2 1, relu3 , relu4 1, relu5_1 
五 层 的 特征 图 所 求 得 的 格拉 姆 矩阵 的 差 的 平方 和 。 


1 
EMT CEN GL — A; 2 
Ei 4N2ME X ij y) 


L 
Lome) = È wE, 


l=0 
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其 中 a 和 x 表 示 风 格 图 和 生成 图 ，4! 和 6! 表示 它们 在 ! 层 特征 图 的 格拉 姆 矩阵 ，N 
和 M 为 格拉 姆 矩阵 的 边 长 。 Wi 为 各 层 风 格 损 失 设 置 的 权重 ， 正 如 前 文 提 到 的 ， 浅 层 
更 注重 纹理 细节 ， 深 层 更 注重 大 片 的 图 案 。 


使 用 TensorFlow 实现 的 完整 版 本 如 下 : 


import numpy as np 
import scipy.io 

import tensorflow as tf 
from PIL import Image 


# 定义 命令 行 参数 

tf.app.flags.DEFINE string('style image', '", 'style image’) 
tf.app.flags.DEFINE string('content image!, '', 'content image') 
tf.app.flags.DEFINE integer('epochs', 5000, 'training epochs') 
tf.app.flags.DEFINE float('learning rate', 0.5, 'learning rate') 
FLAGS - tf.app.flags.FLAGS 


# 声明 超 参 数 
STYLE WEIGHT = 1. 
CONTENT WEIGHT - Q. 


STYLE LAYERS = ['relul 1', 'relu2 1', 'relu3 1', 'relu4 ]1', 
'relu5 1'] 
CONTENT LAYERS - ['relu4 2'] 


.Vgg params = None 


def vgg params(): 
* 加 载 VGG19 的 权 值 
global vgg params 
if vgg params is None: 
.Vgg params = Scipy.io.loadmat ('imagenet-vgg-verydeep- 
19.mat') 
return _vgg_params 


def vggl9(input image): 

# 声明 VGG19 网 络 结构 ， 

layers = ( 
'convl 1', 'relul 1', 'convl 2', 'relul 2', 'pooll', 
'conv2 1', 'relu2 1', 'conv2 2', 'relu2 2', 'pool2', 
'conv3 1', 'relu3 1', 'conv3 2', 'relu3 2', 'conv3 3', 
'relu3 3', 'conv3 4', 'relu3 4', 'pool3', 
'conv4 1', 'relu4 1', 'conv4 2', 'relu4 2', 'conv4 3', 
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'relu4 3', 'conv4 4', 'relu4 4', 'pool4', 
'conv5 1', 'relu5 1', 'conv5 2', 'relu5 2', 'conv5 3', 
'relu5 3', 'conv5 4', 'relu5 4', 'pool5' 
) 
weights = vgg params () ['layers'] [0] 
net = input image 
network = {} 
for i, name in enumerate (layers): 
layer type = name[:4] 
if layer type -- 'conv': 
kernels, bias = weights[i] [0] [0] [0] [0] 
# matconvnet weights: [width， height, (in channels, 
out channels] 
# tensorflow weights: [height， width, in channels, 
out channels] 
kernels = np.transpose(kernels, (1, 0, 2, 3)) 
conv = tf.nn.conv2d(net, tf.constant (kernels), 
strides=(1, 1, 1, 1), padding-'SAME', 
name-name) 
net = tf.nn.bias add(conv, bias.reshape(-1)) 
net = tf.nn.relu (net) 
elif layer type -- 'pool': 
net - tf.nn.max pool(net, ksize-(1, 2, 2, 1), 
strides-(1, 2, 2, 1), 
padding-'SAME') 


network[name] = net 
return network 


def content loss(target features, content features): 
# 使 用 特征 图 之 差 的 平方 和 作为 内 容 差距 ， 越 小 则 合成 图 与 原 图 的 内 容 越 相近 
_, height, width, channel = map(lambda i: i.value, 
content features.get shape()) 
content size - height * width * channel 
return tf.nn.12 loss(target features - content features) / 
content size 


def style loss(target features, style features): 
# 使 用 Gram matrix 之 差 的 平方 和 作为 风格 差距 ， 越 小 则 合成 图 越 具 有 风格 图 的 
纹理 特征 
_, height, width, channel = map(lambda i: i.value, 
target features.get shape()) 
size - height * width * channel 


# target gram 是 特征 图 矩阵 的 内 积 
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target_features = tf.reshape(target features, (-1, channel)) 
target gram - tf.matmul(tf.transpose(target features), 
target features) / size 
Style features - tf.reshape(style features, (-1, channel)) 
Style gram - tf.matmul(tf.transpose(style features), 
Style features) / size 
return tf.nn.12 loss(target gram - style gram) / size 


def loss function(content image, Style image, target image): 


def 


# 总 损失 = 内 容 损 失 * 内 容 权重 + 风格 损失 * 风格 权重 
Style features = vggi9([style image]) 
content features - vgg19([content_image] ) 
target features = vggl9([target image]) 
loss = 0.0 
for layer in CONTENT LAYERS: 
loss += CONTENT WEIGHT * content loss(target features[layer], 
content features[layer]) 
for layer in STYLE LAYERS: 
loss += STYLE WEIGHT * Style loss(target features[layer], 
Style features[layer]) 
return loss 


Stylize(style image, content image, learning rate-0.1, 


epochs-500): 


+ 目标 合成 图 ， 初 始 化 为 随机 白 噪声 图 
target = tf.Variable(tf.random normal(content image.shape), 
dtype-tf.float32) 
style input = tf£.constant (style image, dtype-tf.float32) 
content input - tf.constant(content image, dtype-tf.float32) 
cost - loss function(content input, Style input, target) 
+ 使 用 Adam 算法 作为 优化 算法 ， 最 小 化 代价 函数 
train op=tf.train.AdamOptimizer (learning rate) .minimize (cost) 
with tf.Session() as sess: 
tf.initialize all variables().run() 
for i in range (epochs): 


_ loss, target_image = sess.run([train op, cost, 
target]) 
# TEDIOGETCPHR AC ERÁCT RE 
print("iter:$d, loss:$.9f" $% (i, loss)) 
if (i * 1) $ 100 == 0: 
# save target image every 100 iterations 
image - np.clip(target image + 128, 0, 255) .astype 
(np.uint8) 
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Image.fromarray(image).save("neural $d.jpg" % (i + 
1)) 


if name  -- ' main ': 
# 图 片 在 读 入 时 ， 仪 素 值 被 预 处 理 为 0 中 心 ， 可 以 加 速 收敛 
Style = Image.open(FLAGS.style image) 
Style - np.array(style).astype(np.float32) - 128.0 
content - Image.open(FLAGS.content image) 
content - np.array(content).astype(np.float32) - 128.0 
stylize(style, content, FLAGS.learning rate, FLAGS.epochs) 


从 下 面 这 一 组 图 片 中 可 以 看 出 《星夜 ) 的 风格 施加 在 照片 上 的 过 程 。 我 们 可 以 看 
到 , 在 最 初 的 迭代 中 , 图 片 更 像 是 原始 照片 和 绘画 的 简单 纹理 的 倒 加 ,而 随 着 迭代 次 
数 的 增加 ， 图 片 慢 慢 学 习 到 了 《星夜 》 中 的 配色 和 笔触 的 纹理 ， 并 在 随后 的 迭代 过 程 
中 逐渐 成 形 ， 最 终 把 一 张 照片 转变 成 为 梵 高 的 风格 ， 如 图 4-18 所 示 。 





选 代 2000 轮 先 代 3000 轮 远 代 4000 轮 


4-18 鲜花 照片 与 《星空 》 风 格 的 融合 过 程 


115 4 
ww ai bbt. com [] HL BL D] D] U 





B 深度 学 习 原理 与 TensorFlow 实践 


是 不 是 十 分 有 趣 ? 还 有 更 有 趣 的 ! 


在 程序 中 我 们 在 最 开始 设置 了 一 些 超 参 数 ,如 学 习 率 、 内 容 损 失 的 系数 、 风 格 损 
失 计算 的 特征 图 等 , 还 有 一 些 是 没有 在 程序 中 定义 出 来 的 超 参 数 , 比如 各 个 特征 图 系 
数 。 通 过 实验 调整 这 些 参数 ， 可 以 对 CNN 在 风格 迁移 这 一 应 用 上 有 更 深 的 理解 。 比 
如 学 习 率 会 影响 收敛 的 速度 、 内 容 损 失 和 风格 损失 的 系数 会 影响 合成 图 片 的 效果 。 特 
别 来 说 ， 如 果 我 们 将 内 容 损失 的 系数 设置 为 0， 也 就 是 只 希望 拟 合 风格 图 的 纹理 ， 那 
4 (BR) 的 纹理 是 如 图 4-19 这 样 的 。 
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图 4-19 《星夜 》 风 格 纹理 


对 于 普通 人 来 说 , 这 些 线条 和 配色 看 起 来 与 《星夜 》 非常 相似 , 最 大 的 差别 是 没 
有 了 绘画 中 的 一 些 细节 ， 这 也 正 是 纹理 提取 所 要 做 的 。 


44.2 ”风格 的 滤 镜 


2016 年 , 一 款 名 为 Prisma 的 滤 镜 APP 以 病毒 式 传播 的 速度 席卷 了 全 球 各 大 社交 
网 络 ， 上 线 5 周 时 间 内 就 俘获 了 1000 万 用 户 ， 成 为 增长 速度 最 快 的 现象 级 产品 。 这 
款 APP 的 核心 功能 就 只 有 一 个 : 多 种 名 画 风格 的 照片 滤 镜 。 这 实际 上 就 是 我 们 前 面 
所 讲 的 风格 迁移 ， 那 么 这 是 将 neural style 论文 中 的 方法 直接 实现 成 APP 就 放出 来 推 
广 了 么 ? 并 不 是 。Prisma 滤 镜 最 大 的 特点 就 是 不 但 能 演 染 出 让 人 惊叹 的 效果 , 而 且 速 
度 飞 快 ! 一 张 照片 的 演 染 只 需要 几 秒 钟 ! 
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Gatys 论文 中 所 描述 的 使 用 梯度 下 降 算法 逐 像素 修改 合成 图 的 方法 ， 虽 然 效 果 非 
常 惊艳 , 但 是 最 大 的 问题 在 于 每 一 幅 图 像 的 泻 染 都 要 经 过 漫长 的 学 习 过 程 , ESA 
代 计算 中 一 个 像素 一 个 像素 地 施加 纹理 。 以 上 一 小 节 中 鲜花 和 《星夜 》 的 融合 为 例 ， 
经 过 了 几 千 轮 的 迭代 训练 才 形成 了 我 们 能 识别 的 风格 ,而 每 一 轮 迭 代 计算 即使 是 在 性 
能 最 强劲 的 GPU Titan X 上 ， 依 然 需要 数 百 毫秒 的 时 间 ， 若 运行 在 CPU 上 则 是 以 分 
钟 计 。 不 仅 如 此 ， 在 实验 中 的 照片 分 辩 率 仅 为 512 x 512 像 素 ， 当 照片 的 分 辩 率 提升 
时 , 计算 所 需要 的 时 间 还 会 成 倍增 加 。 也 就 是 说 要 得 到 一 张 效果 不 错 的 具有 名 画 风 格 
的 照片 , 需要 等 待 数 分 钟 甚至 数 小 时 , 这样 的 处 理 速率 是 不 可 能 应 对 大 规模 用 户 的 使 
FAR. Prisma 产品 化 最 成 功 的 一 点 就 在 于 它 能 够 在 几 秒 钟 内 完成 一 张 图 片 的 泻 染 。 这 
种 速度 是 如 何 做 到 的 ? 


有 两 篇 关于 风格 滤 镜 的 论文 几乎 在 同一 时 间 发 表 出 来 ， 分 别 是 由 俄罗斯 科学 家 
Dmitry Ulyanov 完成 的 Texture Networks: Feed-forward Synthesis of Textures and 
Stylized Images 和 斯 坦 福 大 学 李 飞 飞 实验 室 的 Justin Johnson 发 表 的 Perceptual Losses 
for Real-Time Style Transfer and Super-Resolution, 这 两 篇 论文 都 描述 了 实时 风格 迁移 
( Real-Time Style Transfer ) 的 方法 , 其 中 的 核心 思路 是 : 以 neural style 的 研究 为 基础 ， 
基于 VGGNet 所 提取 出 的 高 维 抽象 特征 构建 损失 函数 ， 同 时 使 用 一 个 图 像 变换 卷 积 
网 络 来 存储 风格 的 纹理 特征 , 然后 将 训练 好 的 网 络 直接 作为 滤 镜 使 用 即 可 完成 对 图 片 
的 风格 变换 。 这 应 该 就 是 Prisma 产品 背后 的 技术 奥秘 。 


如 图 4-20 所 示 ， 整 个 系统 由 两 个 深度 卷 积 网 络 组 成 ， 一 个 图 像 生成 网 络 fw， 以 
非 线性 变换 y = f(x) 的 方式 将 输入 图 片 x 转换 为 输出 图 片 y, 另 一 个 是 损失 计算 网 络 ， 
是 一 个 训练 好 的 确定 参数 的 VGGNet。 图 像 生成 网 络 就 是 我 们 最 后 需要 的 滤 镜 。 
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图 4-20 风格 滤 镜 系统 结构 
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在 这 样 一 个 系统 中 ， 损 失 的 计算 与 neural style 完全 相同 ， 要 最 小 化 内 容 损 失 与 
风格 损失 之 和 。 与 neural style 不 同 的 是 ， 合 成 图 是 由 图 像 生成 网 络 生成 出 来 的 ， 所 
以 梯度 下 降 的 传播 不 会 直接 改变 合成 图 的 像素 , 而 是 修改 图 像 生成 网 络 的 参数 。 针 对 
每 一 种 风格 ， 都 训练 一 个 单独 的 图 像 生 成 网 络 ， 得 到 一 组 风格 对 应 的 参数 。 


Johnson 在 论文 中 提出 的 是 一 种 沙漏 型 结构 的 生成 器 。 在 前 部 是 三 层 卷 积 ， 中 部 
为 5 个 残 差 块 , 后 部 为 三 层 反 卷 积 。 整个 网 络 含有 约 100 万 个 参数 , 占用 4MB 内 存 。 
具体 结构 可 以 参看 代码 : 

def johnson(input image): 


relu - tf.nn.relu 
conv2d - tflearn.conv 2d 


def batch norm(x): 
mean, var = tf.nn.moments(x, axes-[1, 2, 3]) 


return tf.nn.batch normalization(x, mean, var, 0, 1, le-5) 


def deconv2d(x, n filter, ksize, strides-1): 


— h, w, _ = x.get shape().as list() 
output shape - [strides * h, strides * w] 
return  tflearn.conv 2d transpose(x, n filter,  ksize, 


output shape, 
strides) 


def res block(x): 
net = relu(batch norm(conv2d(x, 128, 3))) 
net = batch norm(conv2d(net, 128, 3)) 
return x * net 


net = relu(batch norm(conv2d(input image, 32, 9))) 
net = relu(batch norm(conv2d(net, 64, 4, strides-2))) 
net = relu(batch norm(conv2d(net, 128, 4, strides-2))) 
for i in range(5): 

net = res block(net) 
net - relu(batch norm(deconv2d(net, 64, 4, strides-2))) 
net - relu(batch norm(deconv2d(net, 32, 4, strides-2))) 
net = deconv2d(net, 3, 9) 
return net 


Texture Nets 是 Ulyanov 提出 的 另 一 种 图 像 生成 网 络 结构 ， 是 由 不 同 分 辨 订 卷 积 
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MESE ARMS SII, WE 4-21 所 示 。 这 样 一 个 轻型 网 络 的 参数 个 数 为 
65KB 左右 ,可 以 压缩 到 占用 300KB 内 存 。 在 GPU 上 20 毫秒 就 可 以 处 理 一 张 256x256 


大 小 的 图 片 ， 并 且 仅 需 要 170MB 的 内 存 空间 ， 相 比 而 言 原始 neural style 的 方法 需要 
用 超过 1100MB。 
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图 4-21 Texture Nets 生成 器 网 络 结构 


Texture Nets 的 实现 代码 如 下 : 


def texture net (input image): 
conv2d = tflearn.conv 2d 
batch norm = tflearn.batch normalization 
relu = tf.nn.relu 
# 定义 缩放 尺度 
ratios = [16, 8, 4, 2, 1] 
# n filter 为 每 一 尺度 的 特征 图 数量 
n filter = 8 
net = [] 


for i in range(len(ratios)): 
# 首先 使 用 max_pooling 缩小 图 像 
net.append(tflearn.max pool 2d(input image, ratios[i], 
ratios[i])) 

# 构建 每 一 个 尺度 下 的 block i 0, block i 1, block i 2 
for block in range(3): 

ksize = 1 if (block + 1) $ 3 == 0 else 3 

net[i] = relu(batch norm(conv2d(net[i], n filter, ksize))) 

if i !- 0: 

# 与 net [i-1] 合并 
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upnet = batch norm(net[i - 1]) 

downnet - batch norm(net[i]) 

net[(i] = tf.concat (3, [upnet, downnet]) 

# 构建 每 一 个 尺度 下 的 block i 3, block i 4, block i 5 

for block in range(3, 6): 
ksize = 1 if (block + 1) $ 3 == 0 else 3 
net[i] = conv2d(net[i], n filter * (i * 1), ksize) 
net[i] = relu(batch norm(net[i])) 


if i !- len(ratios) - 1: 
# 通过 上 采样 的 方式 提高 分 辩 率 
net[i] = tflearn.upsample 2d(net[i], 2) 
# 转换 为 3 通道 图 像 并 输出 
output = conv2d(net[len(ratios) - 1], 3, 1) 


return output 


风格 滤 镜 网 络 每 次 都 是 针对 一 张 风格 图 进行 训练 , 也 就 是 说 风格 图 是 固定 的 , 但 
与 此 同时 内 容 图 不 能 是 固定 的 ， 否 则 最 终 训练 的 结果 就 与 原始 的 neural style 没有 区 
Blo 为 了 使 风格 对 内 容 充分 泛 化 , 不 被 某 张 图 的 内 容 所 限定 ， 需要 用 多 张 的 图 片 来 训 
练 网 络 ， 使 风格 能 适应 任意 图 片 的 分 布 。 训 练 数据 可 以 从 ImageNet 或 者 其 他 图 像 数 
据 集中 随机 选择 。 训 练 集 大 小 其 实 并 没有 限制 , 因为 原本 训练 集 的 目的 就 在 于 让 模型 
能 够 尽 可 能 多 地 适应 多 种 图 像 分 布 ， 但 在 Ulyanov 后 续 的 研究 论文 Instance 
Normalization: The Missing Ingredient Sor Fast Stylization 中 发 现 , 使 用 上 万 张 图 片 的 训 
练 集 和 长 时 间 的 训练 反而 会 造成 效果 下 降 。 这 里 的 效果 指 的 是 人 看 到 的 感受 , 而 不 是 
损失 函数 的 收敛 效果 。 在 论文 中 提 到 ， 用 16 张 图 片 训练 出 的 模型 要 比 上 千张 图 片 训 
练 出 的 模型 生成 的 风格 效果 更 加 明显 ， 甚至 最 好 看 的 效果 是 用 少量 图 片 训练 并 且 要 适 
时 提前 中 止 训练 才 得 来 的 。 在 本 书 作者 看 来 这 似乎 有 些 玄幻 ， 似乎 要 想 训练 出 一 个 好 
看 的 风格 滤 镜 的 话 , 运气 的 成 分 也 很 重要 2。 这 也 许 就 是 Prisma 至 今 还 无 人 能 够 完美 
复制 的 原因 吧 。 


4.5 小结 


卷 积 神经 网 络 在 深度 学 习 中 扮演 了 重要 的 角色 ，AlexNet 让 人 们 意识 到 了 深度 学 
习 的 强大 ，GoogLeNet、ResNets 让 计算 机 拥有 了 超过 人 类 的 识别 能 力 。 神 经 网 络 在 





22 欢迎 读者 在 GitHub 对 文中 观点 进行 探讨 ; http://github.com/DeepVisionTeam/TensorFlowBook。 
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加 入 了 卷 积 层 之 后 威力 完全 不 可 同日 而 语 , 不 管 是 识别 还 是 定位 物体 都 游 力 有余 , 其 
至 还 能 创造 出 精美 的 艺术 作品 。 


CNNs 让 计算 机 有 了 “看 懂 ” 世 界 的 能 力 ， 为 我 们 开辟 了 一 片 广阔 的 应 用 领域 ， 
也 注定 会 在 未 来 改变 我 们 的 生活 。 
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深度 学 习 技术 已 在 图 像 识别 领域 取得 了 令 人 瞩目 的 成 绩 。 因 为 图 像 是 二 维 的 感知 
数据 ， 深 度 CNNs 神经 网 络 非常 适合 被 用 于 提取 图 像 特征 。 实 践 表明 ， 深度 CNNs 
神经 网 络 已 经 成 为 当前 世界 图 像 识别 竞赛 的 主流 方法 。 


自然 语言 处 理 ( Natural Language Processing, NLP ) 同样 是 人 工 智能 领域 的 研究 
热点 。 语言 包括 语音 和 文字 两 大 部 分 。 但 从 概念 上 讲 自 然 语言 处 理 只 包括 语言 文字 的 
处 理 。 它 是 指 实现 人 与 计算 机 之 间 用 自然 语言 进行 有 效 通 信 的 各 种 理论 和 方法 。 与 语 
音信 息 相 比 , 文字 信息 能 够 更 好 地 反映 语言 的 内 在 关联 逻辑 。 与 图 像 数 据 不 同 , 语言 
文字 数据 是 一 维 的 字符 序列 。 显 然 , 深度 CNNs 神经 网 络 不 再 适用 于 这 种 类 型 的 数据 。 
对 此 ， 人 们 提出 了 RNN (Recurrent Neural Networks ) 循环 神经 网 络 来 提取 自然 语言 
文字 的 序列 信息 ， 并 用 来 建立 数学 模型 解决 相应 问题 。 


自然 语言 处 理 在 人 工 智能 领域 涉及 的 问题 相当 广泛 ， 包 括 机 器 翻译 、 智 能 对 话 、 
文字 语义 理解 等 方面 。 目 前 深度 学 习 技 术 已 在 机 器 翻译 、 智 能 对 话 等 问题 方面 取得 了 
非常 不 错 的 效果 。 例 如 Google 翻译 、iPhone 上 的 聊天 机 器 人 等 。 但 在 文字 语义 理解 
问题 方面 , 仍 有 很 多 关键 问题 需要 解决 。 著 名 的 “图 灵 测 试 ” 是 一 种 采用 文字 问答 的 
方式 来 测试 机 器 是 否 具有 语义 理解 智能 的 专项 测试 。 虽然 , 该 项 测试 表明 目前 的 智能 
算法 能 够 让 计算 机 具备 一 定 的 智能 文字 处 理应 答 能 力 。 但 这 还 远 远 不 能 让 计算 机 像 人 
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类 一 样 熟 练 地 运用 语言 。 


语言 和 文字 是 人 类 感知 世界 最 重要 的 途径 。 它 们 更 是 人 们 记录 思想 、 学 习 交流 、 
传承 文明 的 重要 媒介 。 从 语言 学 角度 来 说 ，“ 听 说 读 写 ” 四 个 方面 是 衡量 一 个 人 掌握 
一 门 语言 的 四 个 方面 。 对 应 的 , 若 使 计算 机 像 人 类 一 样 具备 语言 的 运用 能 力 ,同样 应 
考量 “ 听 说 读 写 ”这 四 个 方面 。 对 此 ， 人 工 智能 领域 发 展 出 了 如 下 四 个 最 主要 的 研究 
方向 。 


° : 语音 识别 (Speech To Text，STT ) ， 实 现 从 音频 到 文本 转换 。 
: 语音 合成 (Text To Speech, TTS) , 实现 从 文本 到 音频 转换 。 
: 文本 理解 ( Text Understanding ) , 实现 文本 到 语义 转换 。 


: 文本 生成 (Text Generation ) , 实现 语义 到 文本 转换 。 


MH mk om 


其 中 ,“ 读 ”和 “ 写 "， 也 就 是 文本 理解 和 文本 生成 两 个 方向 ,它们 同属 于 自然 语 
言 处 理 的 范畴 。 与 “ 听 ”“ 说 ” 相 比 ， 它 们 更 注重 语义 概念 及 其 内 在 逻辑 。 因 为 文本 
数据 具有 易 保存 、 噪 声 小 、 自 带 标签 等 特性 ,使 得 它 更 适合 被 用 于 分 析 语 义 概念 。 相 
比 之 下 ,语音 数据 存储 量 大 、 噪 声 处 理 复杂 、 数 据 类 别 标记 困难 。 这 导致 语音 识别 和 
语音 合成 技术 更 侧重 于 信号 分 类 与 还 原 。 


本 章 将 主要 介绍 循环 神经 网 络 的 基本 概念 及 其 在 自然 语言 处 理 领 域 中 的 多 种 应 
用 ， 并 通过 实际 的 例子 介绍 使 用 TensorFlow 实现 循环 神经 网 络 的 具体 方法 。 


5.1 文本 理解 和 文本 生成 问题 


文本 理解 和 文本 生成 ,是 自然 语言 处 理 (Natural Language Processing ) 领域 中 的 
两 个 典型 问题 。 

文本 理解 又 称 为 文本 语义 分 析 。 它 是 指 基 于 词法 、 语法 等 信息 , 让 计算 机 自动 从 
文本 中 挖掘 出 有 用 的 信息 , 并 帮助 人 们 理解 文本 内 容 的 智能 算法 。 典型 的 应 用 包括 文 
本 分 类 、 情 感 分 析 、 自 动 文摘 等 。 


文本 生成 比较 容易 理解 , 就 是 让 计算 机 自动 输出 符合 人 类 语言 习惯 的 文本 。 典型 
的 应 用 场景 如 机 器 翻译 、 对 话机 器 人 ， 甚 至 “人 工 智能 写作 ”等 。 
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文本 理解 示例 1: 新 闻 自 动 分 类 (文本 分 类 ) 


对 于 媒体 和 门户 网 站 来 说 ,将 每 日 的 新 闻 按 政治 、 经 济 、 科 技 、 娱 乐 等 类 别 归 档 
整理 , 是 一 项 必 不 可 少 的 工作 。 新 闻 自 动 分 类 算法 ,使 用 文本 分 类 的 技术 ,可 以 自动 


为 每 一 篇 新 闻 文档 预测 其 所 属 类 别 ， 如 图 5-1 所 示 。 


+ 财经 | BBM RR: 北京 有 些小 区 房 源 全 部 下 架 
+ 肖捷 接 树 模 继 伟 : 中 国 财税 改革 已 经 进入 深水 区 

“ 洲 涡 中 的 河南 首 语 : 被 下 属 妻 子 举报 迫害 高 管 超生 5 子女 
“股票 | 保监会 约 谈 恒 大 人 寿 负 责 人 :不 支持 险 资 短 炒股 票 
“调控 威力 显现 经 理 人 信心 值 走低 业内 人 士 称 房价 难 降 

* 科技 | 乐 视 融资 起 500 亿 仍 诉苦 危机 解 药 :做 实生 态 图 

“ 抛光 处 理 受 欢迎 ? SRO AEN “RAB” iPhone 7 

+ 马 斯 克 :未 来 人 类 都 不 上 班 GIF ORT RAE ZA 
AF | 哈弗 新 中 型 SUY 曝 光 夫妻 拍 涉 违章 警车 被 按 下 跪 
" 时 尚 | 5 岁 安吉 24K 线 爷们 范冰冰 斗 敌 上 身 超 拉 风 


Ed 5-1. 媒体 对 新 闻 的 分 类 示例 
文本 理解 示例 2: 用 户 评论 分 析 〈 情 感 分 析 ) 


电 商 商家 为 了 优化 用 户 体验 和 商业 收益 ， 需 要 对 用 户 评论 进行 分 析 和 统计 ， 如 
5-2 所 示 。 通 过 文本 理解 技术 , 可 以 自动 分 析 每 一 条 评论 分 别 反映 了 用 户 的 正面 情 
绪 或 是 负面 情结 , 通过 综合 多 个 用 户 评论 的 情感 分 析 结 果 , 可 以 得 到 商品 的 用 户 偏好 ， 
为 商业 优化 提出 决策 数据 。 甚 至 可 以 通过 分 析 用 户 对 产品 、 物 流 、 服 务 中 的 某 些 方面 


提出 的 疑问 ， 进 行 定向 预警 公关 ， 将 负面 影响 降低 到 最 小 的 范围 。 
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图 5-2 ”用 户 评论 分 析 ( 情感 分 析 ) 
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文本 生成 示例 机 器 翻译 


随 着 全 球 化 的 发 展 , 世界 各 地 跨 区 域 的 交流 与 合作 越 来 越 频繁, 多 语言 翻译 的 需 
求 无 处 不 在 。 人 类 翻译 成 本 高 昂 ， 而 且 效 率 较 低 。 相 对 而 言 ， 使 用 计算 机 进行 自动 机 
器 翻译 是 一 种 不 错 的 选择 ， 如 图 5-3 所 示 。 


MÀ t Onus ORA REA. = [aa rw — rn | 


To be, or not to be, that is the question. ARFA, SSMUS, 


a] ae 


Sei had Dias id oan wir 


5-3. NUBE 


通过 上 述 几 个 示例 场景 可 以 发 现 , 文本 数据 是 要 研究 和 处 理 的 对 象 。 文 本 可 以 是 
一 个 句子 、 一 个 段落 或 者 是 一 篇 文章 ,从 计算 机 表示 的 角度 来 说 , 文本 就 是 由 字 和 词 
组 成 的 序列 。 文 本 数据 与 图 像 数据 最 大 的 区 别 在 于 , 文本 数据 更 强调 文字 序列 中 前 后 
元 素 之 间 的 相互 影响 。 要 预测 句子 中 的 下 一 个 词 , 一 般 都 要 通过 句子 中 的 前 一 个 或 几 
个 词 进行 推断 ， 因 为 前 后 单词 并 不 是 独立 的 。 要 理解 一 句 话 也 是 相同 的 道理 , 相同 的 
一 组 字 词 经 过 不 同 顺序 排列 得 到 的 句子 ， 可 能 在 语义 上 截然 不 同 ， 比 如 “不 怕 辣 ”， 
“ 怕 不 辣 "，“ 辣 不 怕 ” 和 “ 怕 辣 不 ”就 显然 是 不 同 的 意思 。 文 本 数据 的 另 一 大 特点 就 
是 文本 序列 属于 变 长 数据 。 以 新 闻 文 本 为 例 , 一 则 新 闻 可 以 是 十 几 个 字 的 快讯 , 也 可 
以 是 正常 的 文章 报道 , 还 有 可 能 是 长 篇 连载 系列 专题 。 对 于 图 像 数据 来 说 , 即使 原始 
数据 大 小 不 同 , 还 可 以 采取 缩放 或 者 裁剪 的 方式 , 在 不 影响 语义 的 前 提 下 统一 数据 的 
大 小 。 但 对 于 文本 数据 来 说 , 并 不 存在 这 样 的 转换 方案 ,任何 裁剪 都 可 能 会 导致 语义 
信息 的 丢失 。 因 此 ， 针 对 文本 处 理 所 设计 的 模型 ， 需 要 能 够 捕捉 和 利用 数据 的 顺序 ， 
并 且 能 处 理 变 长 的 数据 。 


传统 的 前 馈 神 经 网 络 ( Feed-forward Neural Network, FNN ) 并 不 适合 于 文本 处 
理 问题 。 首 先 , 文本 数据 是 变 长 的 ， 而 传统 神经 网 络 的 输入 和 输出 都 是 固定 长 度 的 。 
如 果 输 入 层 有 5 个 节点 ， 那 就 只 能 接收 5 个 元 素 的 输入 。 其 次 ， 即 使 通过 截取 、 填 充 
等 手段 将 文本 数据 全 部 都 归 一 化 到 固定 长 度 后 , 由 于 传统 前 馈 神经 网 络 假设 所 有 输入 
节点 之 间 是 独立 的 ， 所 以 依然 不 能 准确 提取 一 句 话 中 前 后 单词 之 间 的 局 部 语义 关系 ， 
而 是 尝试 提取 单词 在 整个 语句 中 的 整体 语义 关系 的 期 望 均值 。FNN 网 络 的 输入 特征 
内 部 是 没有 任何 联系 的 ， 因 此 并 不 适用 于 自然 语言 处 理 。 
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图 5-4 展示 了 使 用 经 典 的 前 馈 神 经 网 络 解决 序列 数据 分 析 问 题 的 流程 。 在 图 中 ， 
输入 层 节点 为 [x1,xz, .…,xm]， 经 过 若干 个 隐 含 层 的 计算 , 最 终 到 达 输 出 层 并 得 到 预测 
结果 y。 对 于 输入 的 序列 数据 (wy wa, o Wm) ， 每 一 个 元 素 对 应 到 一 个 输入 节点 的 
位 置 。 从 图 中 可 以 看 出 任意 两 个 输入 数据 w: 和 wj, 它们 作用 于 最 终 的 输出 结果 是 由 不 
同 的 模型 参数 决定 的 。 整 个 w 和 w/ 两 者 之 间 并 无 任何 关联 。 由 于 输入 层 与 隐 含 层 之 间 
是 全 连接 , 故 可 以 认为 对 于 中 间 层 来 说 , 每 一 个 输入 节点 都 是 独立 的 、 平 等 的 , wi 与 
WwW2、wz 与 ws 之 间 的 依赖 关系 在 网 络 结构 中 完全 没有 体现 ， 也 就 更 谈 不 上 学 习 了 。 





图 5-4 传统 的 前 馈 神 经 网 络 


曾 有 人 尝试 用 卷 积 神经 网 络 CNN 的 方法 来 处 理 文本 数据 ， 也 就 是 说 ， 对 一 维 的 
序列 数组 进行 卷 积 操作 。 实际 上 , 卷 积 的 输出 只 是 输入 序列 中 很 少 几 个 邻近 元 素 的 函 
数 ， 同 样 并 不 能 表达 文本 中 的 语序 关系 。 


面 对 这 样 一 种 情况 ,循环 神经 网 络 给 出 了 另外 一 种 解决 思路 。 在 循环 神经 网 络 中 ， 
每 一 个 输出 元 素 的 生成 都 基于 同一 个 网 络 , 这 样 就 可 以 简单 地 输出 变 长 结果 。 输 出 序 
列 的 每 个 元 素 都 是 其 之 前 位 置 的 输出 元 素 所 组 成 的 函数 , 这 就 保持 了 序列 元 素 的 顺序 
依赖 关系 。5.2 节 将 详细 介绍 循环 神经 网 络 是 如 何 处 理 文本 数据 的 。 
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5.2 标准 RNN 模型 


5.2.1 RNN 模型 介绍 


循环 神经 网 络 ( Recurrent Neural Networks，RNNs ) 是 专门 用 于 处 理 序 列 数 据 的 
深度 学 习 模 型 。 正 如 5.11 节 所 介绍 的 ， 文本 处 理 问 题 上 最 需要 解决 的 就 是 序列 语序 
和 变 长 数据 的 问题 。 


在 理解 RNN 之 前 ,不 妨 先 考虑 一 下 人 类 是 如 何 分 析 一 系列 事件 之 间 的 联系 的 。 
最 基本 的 方式 , 就 是 记 住 之 前 发 生 的 事 , 将 事件 有 条 理 地 存储 在 大 脑 的 记忆 当中 。 在 
判断 下 一 个 事件 时 ， 先 回忆 起 之 前 发 生 的 事 ， 并 根据 思维 模式 推理 出 最 合理 的 情况 。 


RNN 网 络 就 是 在 传统 神经 网 络 的 基础 上 加 入 了 “记忆 ”的 成 分 。 对 于 RNN 模型 
来 说 ， 序 列 (xu xo, …,xm) 被 看 作 一 系列 随 着 时 间 步 长 (time step) 递 进 的 事件 序列 。 
这 里 的 时 间 步 长 并 不 是 真实 世界 中 所 指 的 时 间 ， 而 是 指 序列 中 的 位 置 。 如果 用 传统 神 
经 网 络 对 序列 进行 处 理 , 网 络 会 对 (xi x, …,Xm) 这 些 输 入 元 素 分 别 计算 , 得 到 对 应 的 
(04, oz … om) 一 系列 输出 ， 但 o; 与 o 并 不 无 关联 。RNN 之 所 以 叫做 “recurrent”， 是 
因为 它 它 在 对 当前 时 刻 状 态 的 计算 还 依赖 于 前 一 步 ( 前 一 个 位 置 ) 的 计算 结 结果 ,也 就 是 
说 ，oz 的 计算 实际 上 是 同时 基于 > 和 o; 的 。 对 于 时 刻 1 来 说 ， 上 一 个 时 刻 的 状态 表示 
为 he_1， 可 以 说 h._i 编 码 记 录 了 x 的 前 级 序列 数据 (Xp Xz, Xe) 的 信息 ; 当 对 t 
时 刻 的 输入 x 进行 计算 时 ， 循环 神经 网 络 综合 当前 时 刻 输 入 x 与 前 一 个 时 刻 的 “WIZ” 
he_1， 一 起 得 到 时 刻 的 状态 h。 


RNN 的 基本 形式 如 图 5-5 所 示 。 图 中 , x 是 输入 序列 向 量 ， 有 h 代表 网 络 隐 层 的 状 
D, o 代表 输出 向 量 。 输 入 与 隐 层 之 间 通 过 参数 矩阵 U 连接 ,不 同时 刻 的 隐 层 之 间 以 
参数 矩阵 所 连接 ， 隐 层 与 输出 层 之 间 以 参数 矩阵 v iki. 


o, o, 
vf V vf y 
Ss. w Ww h 1 h, hi 
Q = 00o 
Unfold W w w 
U U U U 
x x x, X. 


图 5-5 ”循环 神经 网 络 的 折 益 形式 和 展开 形式 
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5-5 的 右 图 为 RNN 的 展开 形式 ， 左 图 为 简化 表示 后 的 折 香 形式 。 左 图 中 的 黑 
色 方块 ,描述 了 一 个 延迟 连接 ， 从 上 一 个 时 刻 的 隐 含 状态 he_1 到 当前 时 刻 隐 层 状态 hh 
之 间 的 连接 。 
用 公式 来 表示 ，RNN 的 前 向 传播 可 以 表示 为 : 
a, = b + Wh,- + Ux, 
h, = tanh(aj) 
or — c Vh, 


J, = softmax(o,) 


其 中 ,x: 为 + 时 刻 的 输入 ,表示 六 为 :时刻 的 隐 层 状态 表示 , 0 表示 ! 时 刻 的 输出 
表示 ， 久 为 经 过 归 一 化 后 的 预测 概率 。 


值得 一 提 的 是 ,参数 共享 ( Parameter sharing ) 在 RNN 中 也 起 到 了 至 关 重 要 的 作 
用 。 从 图 5-5 和 上 面 的 公式 中 可 以 注意 到 ， 对 于 每 一 个 时 刻 ， 参 数 矩 阵 UW. VIE 
没有 变化 ， 而 是 使 用 同一 组 参数 。 参 数 共享 的 意义 在 于 , 在 一 段 文本 中 , 部 分 重要 的 
信息 可 能 出 现在 序列 的 任何 位 置 上 ， 甚 至 同时 出 现在 多 个 位 置 上 。 比 如 ,“ 人 小 明 热 爱 
深度 学 习 ” 和 “深度 学 习 是 小 明 的 最 爱 ” 这 两 句 话 表达 的 是 类 似 的 意思 ， 如 果 让 机 器 
学 习 模 型 来 理解 其 中 的 含义 ,判断 小 明 喜 欢 的 学 科 ， 那 “深度 学 习 ” 不 管 出 现在 文本 
的 开始 或 是 结尾 ,都 应 该 被 认为 是 最 具有 相关 性 的 信息 。 也 正 是 由 于 参数 共享 的 作用 ， 
RNN 可 以 处 理 任意 长 度 的 序列 ， 只 要 序列 的 元 素 按 顺 序 一 个 一 个 地 传 入 网 络 ，RNN 
网 络 就 像 管道 一 样 逐 个 处 理 。 





另外 ， 需 要 特别 说 明 的 是 ， 关 于 RNN 这 个 缩写 ， 某 些 情况 下 会 出 现 混淆 。 循 环 
神经 网 络 (Recurrent Neural Network ) 和 递归 神经 网 络 (Recursive Neural Network ) 
有 着 共同 的 缩写 RNN， 而 本 章 讨论 的 是 循环 神经 网 络 ， 也 是 各 种 文献 中 多 数 情况 下 
RNN 的 含义 。 

递归 神经 网 络 的 网 络 结构 与 循环 神经 网 络 有 很 大 不 同 。 递 归 神 经 网 络 通过 构建 参 
数 共享 的 树 状 结构 处 理 序列 数据 ， 其 结构 如 图 5-6 所 示 。 
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5-6 ”递归 神经 网 络 的 结构 


在 考虑 具体 的 输入 数据 的 情况 下 , 递归 神经 网 络 一 般 采 取 固定 的 平衡 二 叉 树 结构 
的 方式 构造 。“ 递 归 ” 的 含义 在 于 树 状 网 络 结构 中 的 重复 子 结构 模块 之 间 实 施 了 参数 
共享 。 如 果 说 循环 神经 网 络 是 在 时 间 维 度 上 进行 参数 共享 ,那么 递归 神经 网 络 是 在 空 
间 维度 上 进行 参数 共享 。 


5.22 BPTT 算法 


当 使 用 传统 的 神经 网 络 进行 监督 学 习 时 ,模型 的 训练 本 质 上 就 是 通过 最 小 化 损失 
函数 ， 以 确定 模型 参数 的 取 值 。 对 于 传统 的 神经 网 络 来 说 ,一 般 使 用 经 典 的 反 向 传播 
(Back-propagation, BP) 算法 进行 参数 更 新 。BP 算法 的 每 次 迭代 包含 两 个 阶段 ， 即 
前 向 传播 ( forward ) 阶段 和 反 向 传播 ( backward ) 阶段 。 在 前 向 传播 阶段 ， 模 型 完成 
从 输入 节点 到 输出 节点 的 计算 过 程 , 直到 最 终 获 得 当前 模型 的 损失 函数 值 为 止 。 反 向 
传播 阶段 则 从 输出 节点 到 输入 节点 计算 每 个 参数 的 梯度 值 ， 并 根据 学 习 率 进行 更 新 。 
然而 ， 对 于 循环 神经 网 络 来 说 ， 由 于 网 络 中 “循环 ”的 存在 ， 权 值 参数 W. UL VE 
阵 都 在 网 络 中 多 个 层 的 计算 中 共享 ， 使 得 普通 的 BP 算法 不 能 直接 应 用 在 RNN 模型 
的 训练 中 。 


BPTT ( Back-Propagation Through Time ) 算法 是 BP 算法 在 RNN 结构 上 的 一 种 变 
WER, 采取 在 RNN 模型 的 展开 式 上 进行 梯度 计算 。BPTT 在 循环 神经 网 络 中 的 反 
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向 传播 过 程 如 下 : 


首先 为 了 简化 推导 ， 可 以 将 上 一 小 节 描 述 的 RNN 节点 的 公式 表示 中 的 偏 置 参数 
忽略 ， 使 用 下 面 这 个 更 简单 的 表示 ; 


h; = tanh(Ux, + Why,-1) 
9, = softmax(Vh,) 


HAPA AAR, hs cR US, W UL V 为 参数 。 反 向 传 
播 的 目的 是 根据 前 向 传播 得 到 的 代价 函数 值 L, HABER W, U, Ve MEY 
梯度 ， 以 便 应 用 随机 梯度 下 降 算法 求 得 最 合适 的 参数 值 。 


此 时 循环 神经 网 络 的 展开 形式 可 以 如 图 5-7 所 示 。 
L, L, Èa 
[. d. de 
—Q—Q—O 
X, 


| 1 ài 
Ed 5-7 展开 形式 的 RNN 


以 图 5-7 中 的 L 为 例 与 计算 于 参数 灰 的 梯度 ， 根 据 链 式 法 则 有 
AL, OL, 0j; Ohz 


然而 在 其 中 ， 由 于 hs = tanh(Ux; + Wh1)，hz 对 h 有 依赖 ，hi 又 对 ho 有 依赖 ， 所 
以 需要 继续 使 用 链 式 法 则 ， 得 出 : 


因为 在 循环 神经 网 络 每 一 个 时 刻 的 计算 中 都 使 用 参数 所 ， 所 以 此 处 会 将 从 t = 0 
时 刻 到 t = 2 时 刻 之 间 所 产生 的 梯度 全 部 进行 累加 。 同 理 ， 参 数 U 和 VV 的 梯度 计算 方 
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KS WHA. 


其 实 从 计算 过 程 上 来 说 ，BPTT 与 标准 反 向 传播 算法 基本 相同 。 最 主要 的 差异 就 
是 由 于 在 RNN 网 络 中 ,每 一 层 计算 都 共享 参数 变量 W, 所 以 在 计算 梯度 的 时 候 ， 每 
一 层 所 得 到 的 wr 的 梯度 都 需要 累加 在 一 起 ， 以 保证 每 一 层 计算 所 得 的 误差 都 得 到 一 
定 程度 的 矫正 。 而 在 传统 的 神经 网 络 中 ， 每 一 层 计算 的 参数 都 相互 独立 ， 隐 层 之 间 并 
没有 共享 参数 ， 所 以 对 梯度 的 学 习 也 都 是 独立 的 。 


5.2.3 ”灵活 的 RNN 结构 


针对 不 同 的 应 用 场景 ，RNN 网 络 结构 可 以 有 多 种 灵活 的 形式 。 从 输入 和 输出 是 
否 为 变 长 的 角度 考虑 ， 可 以 分 为 : one to one, one to many, many to one, many to many, 
many to many(sync)， 如 图 5-8 所 示 。 
one to one one to many many to one many to many many to many 


0 O00 000 


DOD n 
2 DU DOO goood DX 
Ü d 


Guo Do UUU 


图 5-8 ”从 输入 /输出 是 否 变 长 的 角度 ， 循环 神经 网 络 结构 的 五 种 形式 


5-8 中 ,每 个 方 框 都 代表 了 一 个 向 量 ， 底 层 的 方 框 代表 给 入， 顶层 的 方 框 代表 
输出 ， 中 间 方 框 代表 模型 的 隐 层 的 RNN 状态 向 量 。 同 时 ， 每 个 箭头 都 代表 施加 在 向 
量 上 的 计算 函数 。 


one to one 的 意思 是 单 输入 单 输出 网 络 。 这 里 的 单 输入 ， 并 非 表示 网 络 的 输入 向 
量 长 度 为 1， 而 是 指数 据 的 长 度 是 确定 的 。 比如 输入 数据 可 以 是 一 个 固定 类 型 的 数 ， 
可 以 是 一 个 固定 长 度 的 向 量 ,或 是 一 个 固定 大 小 的 图 片 。 同 理 , 模型 输出 规模 也 是 确 
定 的 。 传 统 神经 网 络 和 CNN 都 可 以 理解 为 是 这 种 形式 的 结构 ,RNN 并 不 在 其 中 。 在 
这 一 类 别 中 , 典型 的 应 用 场景 比如 传统 的 文本 分 类 算法 。 对 于 给 定 文章 D, 基于 人 工 
设计 的 特征 抽取 算法 可 以 得 到 文章 的 特征 向 量 (fo far fn)» 将 特征 向 量 输入 神经 网 
络 ， 计算 出 文章 属于 c 个 分 类 中 每 个 类 别 的 概率 (pp，， Deo 在 这 个 例子 中 ， 虽然 
输入 的 特征 数 m 和 输出 的 分 类 数 c 都 大 于 1, 但 它们 都 是 确定 的 , 因此 ,网络 结 构 记 
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为 one to ones 


one to many 表示 定 长 输入 变 长 输出 的 网 络 结构 , 如 图 5-9 所 示 。 以 单词 释义 问题 
为 例 ， 输 入 的 是 单个 的 英文 单词 ， 比 如 “he”， 输 出 将 是 一 段 单词 序列 “that male one 


who is neither speaker nor hearer” o 
male who neither nor 
TT n 

n5 


DO80D0 


图 5-9 oneto many 结构 ， 举 例 : 英文 释义 问题 


many to one 是 指 输入 为 变 长 序列 、 输 出 为 固定 长 度 的 模型 ， 如 图 5-10 所 示 。 文 
本 情感 分 析 问 题 就 是 这 一 类 型 中 典型 的 场景, 网 络 模型 要 根据 一 段 文本 , 给 出 是 否 为 
积极 情绪 或 者 消极 情绪 的 概率 判断 。 


{0.99, 0.01) 


nor 


i 


图 5-10 many to one 4549, 2&0]: 情感 分 析 问题 


many to many 有 两 种 形式 。 第 一 种 属于 Encoder-Decoder 框架 ， 它 的 特点 是 输入 
序列 数据 经 过 编码 器 网 络 得 到 内 部 表示 后 , 再 基于 这 个 表示 通过 解码 器 网 络 生成 新 的 


133 4 
ww ai bbc. com DO B. D DU] 


n 2 


E 深度 学 习 原 理 与 TensorFlow 实践 


序列 数据 。 输 入 和 输出 都 是 变 长 数据 ， 而 且 两 者 的 长 度 可 以 不 同 。 这 一 类 型 的 典型 场 
景 是 机 器 翻译 问题 。 如 图 5-11 所 示 , 使 用 RNN 进行 中 英 翻 译 ， 网 络 输入 为 一 段 中 文 
文本 ， 输 出 为 输入 文本 对 应 的 英文 翻译 结果 。 


我 5 你 
图 5-11 many to many 结构 ， 举 例 : 机 器 翻译 问题 


many to many 的 第 二 种 结构 是 输入 和 输出 的 元 素 完全 一 一 对 应 ,虽然 输入 数据 和 
输出 数据 的 规模 都 是 不 定 的 , 但 对 于 每 一 个 输入 ， 都 有 对 应 输出 。 也 就 是 说 , 输入 数 
据 和 输出 数据 长 度 是 一 致 的 。 因为 输入 输出 之 间 是 相互 对 应 的 , 也 可 称 之 为 同步 版 本 
的 多 输入 多 输出 。 文 本 序列 标注 问题 就 是 这 样 一 类 问题 。 如 图 5-12 所 示 ， 可 以 使 用 
RNN 对 给 定 文本 中 的 每 一 个 单词 进行 词性 标注 。 例 子 中 的 “我 "、“ 爱 ”"、“ 你 ”三 个 
词语 的 词性 分 别 是 “r”( pronoun, RI). “v” (verb, 动词 )、“r”( pronoun, 代词 )。 


图 5-12 many to many (sync) 结构 ， 举 例 : 文本 序列 标注 问题 
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通过 这 些 不 同 的 形式 和 场景 可 以 看 到 ，RNN 有 着 比 固定 输入 输出 的 网 络 更 加 强 
大 的 能 力 和 更 多 适用 场景 


5.24 TensorFlow 实现 正弦 序列 预测 

如 同 对 卷 积 操 作 的 支持 一 样 ，TensorFlow 对 RNN 模型 的 基础 结构 RNN 单元 也 
提供 了 实现 和 封装 ， 使 用 TensorFlow 可 以 轻松 地 实现 一 个 序列 预测 模型 。 在 这 一 小 
节 里 ， 就 通过 实现 对 正弦 函数 序列 的 预测 示例 , 介绍 TensorFlow 实现 RNN 模型 的 方 


式 。 


为 了 方便 演示 ,在 本 例 中 首先 使 用 numpy 构造 出 要 使 用 的 训练 数据 和 测试 数据 : 


import random 
import numpy as np 


def build data (n): 


xs = [] 

ys = [] 

for i in 
k 
# 
# 
x 
y 


range (2000): 
- random.uniform(1, 50) 


xli] = sin(k + i) (i = 0, 1, ..., n-1) 
yli] = sin(k + n) 

= [[np.sin(k + j)] for j in range(0, n)] 
[np.sin(k + n)] 


xs.append (x) 
ys.append(y) 


train x = np.array(xs[0: 1500]) 
train y = np.array(ys[0: 1500]) 
test x = np.array (xs[1500:]) 
test y - np.array(ys[1500:]) 

return (train x, train y, test x, test y) 


# build data 
(train x, train y, test x, test y) = build data (length) 
print(train x.shape, train y.shape, test x.shape, test y.shape) 
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在 上 面 程序 中 一 共 构造 了 2000 个 序列 数据 样本 ， 其 中 前 1500 个 样本 组 成 训练 集 ， 
后 500 个 样本 组 成 测试 集 。 


随后 ， 使 用 BasicRNNCell 构建 RNN 预测 模型 , 


import tensorflow as tf 
from tensorflow.contrib.rnn. python.ops import core rnn 
from tensorflow.contrib.rnn. python.ops import core rnn cell 


length - 10 

time step size - length 
vector size - 1 

batch size - 10 

test size - 10 


tf.placeholder("float", [None, length, vector size]) 
tf.placeholder("float", [None, 1]) 


X 
Y 


W = tf.Variable(tf.random normal([10, 1], stddev=0.01)) 
B tf.Variable(tf.random normal([1], stddev-0.01)) 


def seq predict _model (X, w, b, time | Step size, vector | Size): 
* input X shape: [batch | Size, time |Step size, vector size] 
* transpose X to [time | Step size, batch size, vector : size] 
X = tf.transpose(X, (1, 0, 2)) 
f reshape X to [time | Step size * batch | Size, vector size] 
X = tf.reshape(X, [-1, vector size]) 
split X, array[time step size], shape: [batch size, 


€ 


vector size] 
X = tf.split(X, time step size, 0) 


cell = core rnn cell. BasicRNNCell (num : units-10) 
initial state - tf.zeros([batch Size, cell.state size]) 
outputs, states - core rnn. static rnn(cell, X, 
initial state-initial state) 


# Linear activation 
return tf.matmul(outputs[-1], w) + b, cell.state size 


pred y, _= seq predict model(X, W, B, time step size, vector size) 
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接着 定义 代价 函数 和 优化 算法 : 


loss = tf.square(tf.subtract(Y, pred y)) 
train op = tf.train.GradientDescentOptimizer (0.001) minimize (loss) 


随后 就 可 以 使 用 最 开始 构造 的 正弦 序列 进行 学 习 了 : 


with tf.Session() as sess: 
tf.global variables initializer().run() 


# train 
for i in range(50): 
# train 


for end in range(batch_size, len(train_x), batch_size): 
begin = end - batch_size 

x value = train_x[begin: end] 

y_value = train_y[begin: end] 
sess.run(train op, feed dict-(X: x value, Y: y value]) 


# randomly select validation set from test set 

test indices - np.arange(len(test x)) 
np.random.shuffle(test indices) 

test indices = test indices[0: test size] 

x value = test x[test indices] 

y value - test y[test indices] 


# eval in validation set 
val loss = np.mean(sess.run(loss, 
feed dict-(X: x value, Y: y value])) 


print('Run $s' $ i, val loss) 

通过 上 面 代码 可 以 看 到 ， 使 用 TensorFlow 的 BasicRNNCell 和 static rnn 接口 ， 
可 以 非常 容易 地 构造 出 一 个 包含 10 次 循环 的 RNN 网 络 。 通 过 TensorBoard 可 以 清晰 
地 看 出 循环 神经 网 络 展开 式 的 结构 ， 如 图 5-13 所 示 。 


虽然 这 只 是 一 个 非常 简单 的 小 例子 ， 但 从 中 可 以 看 出 使 用 TensorFlow 构造 RNN 
网 络 模型 的 基本 用 法 。 以 此 为 基础 ， 构 造 更 复杂 的 模型 也 就 不 再 是 困难 的 事 。 
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5-13 通过 TensorBoard 展示 示例 代码 所 构造 的 RNN 网 络 结构 


5.3 LSTM 模型 


RNN 是 在 有 序 的 数据 上 进行 学 习 的 ， 为 了 记 住 这 些 数据 ，RNN 会 像 人 一 样 对 之 
前 发 生 事件 产生 记忆 。 但 是 RNN 的 结构 决定 了 它 只 能 对 距离 比较 近 的 时 刻 的 记忆 更 
加 强烈 ， 而 对 距离 久远 的 事件 记得 并 不 清楚 。 


以 文本 理解 为 例 ， 首 先 考虑 一 段 文本 : “下 面 我 们 来 介绍 使 用 TensorFlow 实现 
“Hello World’ 的 程序 , 首先 TensorFlow 是 一 个 深度 学 习 框 架 ， 它 使 用 计算 图 作为 计算 
过 程 的 抽象 。Blablabla..…... 这 样 ， 第 一 个 用 TensorFlow 实现 的 。_ 就 完成 啦 1”"。 要 
预测 文本 结尾 空白 处 的 词 ， 根据 文本 开头 的 信息 可 以 推断 出 应 该 是 “程序 "。 但 如 果 
用 RNN 模型 来 预测 ， 文 本 开头 的 “程序 ” 一 词 极 其 相关 信息 要 经 过 长 途 跋 涉 传递 到 
文本 末尾 处 。 虽 然 理 论 上 RNN 能 够 处 理 这 种 长 期 依赖 ( Long-Term Dependency ) 的 
问题 ， 但 从 实践 来 看 ， 普 通 的 RNN 模型 并 不 能 学 习 到 远 距离 的 知识 。 


5.3.1 长 期 依赖 的 难题 


长 期 依赖 对 于 文本 理解 是 不 可 回避 的 问题 ,但 普通 RNN 结构 并 不 能 很 好 地 处 理 
这 个 问题 。 普 通 RNN 网 络 结构 “健忘 ”的 原因 ， 可 以 从 数学 上 稍 作 分 析 。 通过 上 一 
节 的 介绍 可 以 知道 ，RNN 结构 本 质 上 是 很 多 层 相 同 非 线性 函数 的 嵌 套 形式 。 更 具体 
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来 说 ， 如 果 和 暂时 忽略 掉 激活 函数 和 输入 向 量 x，RNN 节点 的 状态 he 可 以 表示 成 : 
hy = Why, = Why a = = = Who 


若 对 参数 矩阵 Ww 进行 特征 分 解 


W = QAQ 


其 中 , ERORE i 列 为 吵 的 特征 向 量 gt。4 是 对 角 矩 阵 ， 其 对 角 线 上 的 元 素 为 对 
应 的 特征 值 。 


通过 特征 分 解 ， 可 以 得 到 RNN 节点 状态 he 的 更 简化 表示 : 


h = Q^AQh, , = QAE Qh = QAE Qho 
可 以 看 到 ， 对 于 状态 的 表示 是 与 参数 矩阵 特征 值 的 :次 方 相关 的 函数 ， 而 若 特 
征 值 的 取 值 小 于 1， 则 最 终结 果 会 快速 降 为 0， 而 若 特征 值 大 于 1， 则 会 快速 趋向 于 
无 穷 大 。 


由 于 参数 矩 M 的 计算 中 被 共享 , 所 以 在 状态 传递 过 程 中 相当 于 W 
被 乘 了 很 多 次 ，W! 只 可 能 趋向 于 0 或 无 穷 大 ， 即 消失 或 爆炸 。 这 也 就 是 说 ， 对 一 个 
序列 , 任何 es ,最 终 导 致 长 距离 的 信 
息 很 难 在 网 络 中 传递 。 


5.3.2 LSTM 基本 原理 


LSTM 就 是 为 了 解决 长 期 依赖 问题 而 诞生 的 。 长 短期 记忆 网 络 ( Long Short Term 
Memory Networks, LSTM ) 是 循环 神经 网 络 的 一 个 改进 , 由 Sepp Hochreiter 和 Jurgen 
Schmidhuber 于 1997 年 首次 提出 。 


如 图 5-14 所 示 , LSTM 和 普通 RNN 相 比 , 最 主要 的 改进 就 是 多 出 了 三 个 门 控制 

88. 输入 门 (input gate )、 输 出 门 (output gate ) 和 遗忘 门 ( forget gate )。 三 个 门 控制 
的 结构 都 相同 , 主要 由 sigmoid 函数 ( 图 5-14 右 图 中 的 “o” 节点 ) 和 点 积 操作 ( | 
5-14 右 图 中 的 “x” 节 点 ) 构成 。 由 于 sigmoid 函数 的 取 值 范围 是 [0, 1]， 所 以 门 控 制 | 
| 

| 





器 描述 了 信息 能 够 通过 的 比例 ，sigmoid 取 值 为 0 的 时 候 表 示 没有 信息 能 够 通过 , 或 
者 理解 为 将 所 有 记忆 全 部 遗忘 。 反 之, 取 值 为 1 时 表示 所 有 信息 都 能 通过 , 完全 保留 
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这 一 分 支 的 记忆 。 


X 





RNN LSTM 
图 5-14 ”标准 循环 神经 网 络 和 LSTM 模型 对 比 ，LSTM 模型 增加 了 状态 C: 和 三 个 门 结构 
对 于 标准 循环 神经 网 络 ,每 个 时 刻 的 状态 都 由 当前 时 刻 的 输入 与 原 有 的 记忆 结合 
组 成 。 但 问题 在 于 记忆 容量 是 有 限 的 ， 如 前 面 介绍 的 ， 早 期 的 记忆 会 呈 指 数 级 衰减 。 


为 了 解决 这 一 问题 ， LSTM 模型 在 原 有 的 短期 记忆 单元 h, 的 基础 上 ， 增 加 一 个 记忆 
单元 Ct 来 保持 长 期 记忆 。 


具体 来 说 ， 长 期 记忆 单元 ct 的 更 新 如 图 5-15 所 示 。 
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图 5-15. LSTM 长 期 记忆 单元 C。 的 更 新 示意 图 


公式 表示 为 : 
Ce = fe X Ce-i + it X Ĉ 
fe = oW, [hix] + bp) 
i, = o(W; * [i xe] + bi) 
à 140 
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C, = tanh(W : [he-i, xt] + bc) 

HH, f. LAIRES, ERE ISTE ZA, 遗忘 门 会 控制 上 一 时 刻 
记忆 的 遗忘 程度 ， 输 入 门 会 控制 新 记忆 6. 的 写 入 长 期 记忆 的 程度 。ft、 i 和 Ce 都 是 与 
上 一 时 刻 的 短期 记忆 h,_1 和 当前 时 刻 输 入 x 相关 的 函数 。 并 且 f 和 i 是 sigmoid 的 函数 ， 
所 以 取 值 范围 为 [0,1] ČA tanh 的 函数 ， 取 值 范围 为 [一 1, 1]。 


另 一 方面 ， 对 于 短期 记忆 hi 的 更 新 如 图 5-16 所 示 : 





图 5-16 LSTM 短期 记忆 单元 h, 的 更 新 示意 图 
h, = o, x tanh(C;) 
0, = o(W, * [he_1, Xe] + bo) 

其 中 ，ot 表 示 输 出 门 ， 它 控制 着 短期 记忆 如 何 受 长 期 记忆 影响 。 

从 网 络 结构 设计 角度 来 说 ，LSTM 对 标准 RNN 的 改进 主要 体现 在 通过 门 控制 器 
增加 了 对 不 同时 刻 记 忆 的 权重 控制 ， 以 及 加 入 跨 层 连接 削减 梯度 消失 问题 的 影响 。 
5-17 展示 了 标准 RNN 与 LSTM 的 节点 级 联 及 其 抽象 表示 。 从 中 可 以 看 到 ，LSTM 
实际 上 在 原 有 结构 上 增加 了 线性 连接 ， 而 不 再 是 单纯 的 非 线 性 连接 彼 加 ， 这 样 就 能 使 
长 期 信息 更 好 地 传播 ,这 与 深度 残 差 网 络 ResNets 通过 增加 跨 层 连 接 ( Skip Connection ) 
来 消除 梯度 消失 问题 的 影响 在 设计 上 有 异 曲 同 工 之 妙 。 也 由 此 可 见 , 在 深度 学 习 领域 
的 模型 改进 方法 上 ，CNN 与 RNN 可 以 说 是 殊途同归 。 
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图 5-17 标准 RNN 55 LSTM 的 节点 级 联 及 其 抽象 表示 


通过 上 面 的 介绍 不 难看 出 ，LSTM 通过 门 控制 器 和 新 的 记忆 单元 ,在 RNN RE 
的 短期 记忆 之 上 保留 了 长 期 记忆 。 如 果 一 个 事件 非常 重要 , 则 输入 门 就 按 重要 程度 将 
短期 记忆 合并 进 长 期 记忆 , 或 者 通过 遗忘 门 忘记 部 分 长 期 记忆 , 按 比 例 替 换 为 现在 的 
新 记忆 。 而 在 最 后 , 输出 门 会 基于 长 期 记忆 和 短期 记忆 综合 判断 到 底 应 该 有 什么 样 的 
输出 。 基 于 这 样 的 控制 机 制 ，LSTM 对 于 长 序列 的 理解 分 析 能 力 大 幅 提高 , 在 多 种 应 
用 中 都 取得 了 非常 好 的 效果 。 


5.3.3 TensorFlow 构建 LSTM 模型 


由 于 LSTM 在 研究 和 应 用 中 出 色 的 表现 ， 已 经 逐渐 成 为 处 理 序列 数据 的 常用 方 
法 。TensorFlow 对 于 LSTM 也 有 很 好 的 支持 。 这 里 还 以 正弦 序列 预测 为 例 , LSTM 版 
本 的 模型 实现 仅 需要 换 上 LSTM 单元 即 可 ， 代 码 如 下 。 


def seq predict model(X, w, b, time step size, vector size): 

# input X shape: [batch size, time step size, vector size] 

* transpose X to [time step size, batch size, vector size] 

X = tf.transpose(X, [1, 0, 2]) 

# reshape X to [time step size * batch size, vector size] 

X = tf.reshape(X, [-1, vector size]) 

# split xX, array[time step size], Shape: [batch size, 
vector size] 

X = tf.split(X, time step size, 0) 





# LSTM model with state size = 10 
cell = core rnn cell.BasicLSTMCell(num units-10, 
forget bias-1.0, 
State is tuple-True) 
outputs, states - core rnn.static rnn(cell, X, dtype-tf.float32) 
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# Linear activation 
return tf.matmul(outputs[-1], w) + b, cell.state size 


同样 通过 TensorBoard 可 以 看 到 模型 内 部 结构 的 展开 式 ， 如 图 5-18 所 示 : 





5-18 ”通过 TensorBoard 展示 示例 代码 所 构造 的 LSTM 网 络 结构 


值得 注意 的 是 ，TensorFlow 中 对 于 LSTM 的 实现 有 两 种 基本 算 子 ， 一 个 是 基础 
的 BasicLSTMCell， 其 中 实现 了 基础 的 LSTM 层 。 另 一 个 是 完整 版 的 LSTMCell， 它 
在 原始 LSTM 的 基础 上 , 加 入 了 对 peephole 连接 的 支持 。 加 入 peephole 连接 的 LSTM 
节点 如 图 5-19 所 示 。peephole 连接 的 作用 是 在 输入 、 遗 忘 、 输出 控制 器 处 理 之 前 ， 
加 入 了 对 长 期 记忆 的 依赖 。 








| 
1 
; 





图 5-19. 加 入 peephole 连接 的 LSTM 变 体 
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TensorFlow 中 原生 支持 的 另 一 个 LSTM 的 变 体 是 GRU (Gated Recurrent Unit ) 
模型 ， 对 应 代码 的 类 名 为 GRUCell。GRU 单元 如 图 5-20 所 示 ， 主 要 特点 是 简化 了 节 
点 状态 和 门 单元 设计 ,从 LSTM 的 遗忘 门 .输入 门 和 输出 门 ,减少 为 重 置 门 ( reset gate ) 
和 更 新 门 (update gate )， 从 而 显著 减少 了 模型 的 参数 个 数 。 在 实践 中 ，GRU 模型 效 
AIR LSTM 不 相 上 下 ， 但 由 于 模型 参数 更 少 ， 在 计算 性 能 方面 的 优势 较为 明显 ， 因 
此 GRU 是 LSTM 重要 替代 选择 。 





5-200 GRU 模型 单元 


5.4 更 多 RNN 的 变 体 


在 标准 循环 神经 网 络 的 基础 上 , 结合 不 同 应 用 场景 和 改进 需求 ,循环 神经 网 络 陆 
续 出 现 了 新 的 变种 。 其 中 比较 著名 的 有 双向 循环 神经 网 络 ( Bidirectional RNNs ) 和 深 
度 循环 网 络 ( Deep Recurrent Networks )。 


普通 RNN 或 LSTM 都 是 要 构建 一 个 具有 “因果 关系 ”的 结构 ， 即 当前 时 刻 的 输 
出 依赖 于 之 前 所 发 生 的 事件 。 然 而 对 于 某 些 应 用 来 说 , 对 当前 时 刻 的 判断 需要 依赖 对 
于 后 续 元 素 , 甚至 整个 序列 的 理解 。 比 如 在 语音 识别 方面 , 就 需要 根据 后 续 序列 识别 
的 结果 , 确定 当前 音节 的 归属 。 双 向 循环 神经 网 络 就 是 解决 类 似 问 题 的 方法 ,其 核心 
思想 是 , t 时 刻 的 状态 不 单 依赖 一 1 时 刻 的 状态 ,还 考虑 从 t 十 1 时 刻 到 时 刻 的 依赖 关 
系 。 网 络 结构 如 图 5-21 所 示 。 
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Output 





Backward Layer 4 一 一 ha 


Forward Layer 


Input 
图 5-21 双向 循环 神经 网 络 

在 TensorFlow 中 ,可 以 通过 static. bidirectional, rnn 方法 构建 双向 循环 神经 网 络 。 

RNN 的 另 一 个 主要 变种 ， 深 度 循环 网 络 的 主要 思路 是 将 每 个 时 刻 的 处 理 过 程 加 


R, 将 多 个 节点 堆 益 在 一 个 时 刻 的 计算 中 ,以 加 深 非 线性 变换 的 复杂 程度 。 研究 表明 
这 种 结构 会 进一步 改进 RNN 网 络 的 效果 。 深 层 ( 多 层 ) 循 环 神经 网 络 如 图 5-22 所 示 。 


yi y Wi+1 





tUi Ti t+1 
5-22 深度 (SE) 循环 神经 网 络 


在 TensorFlow 中 ， 对 这 些 前 沿 的 模型 结构 都 有 比较 完整 的 支持 。 双向 循环 神经 
网 络 可 以 通过 static_bidirectional_mn 方法 构建 ， 深度 循环 网 络 也 有 对 应 的 实现 
MultiRNNCell。 除 此 之 外 ， 从 TensorFlow 中 还 能 看 到 不 少 业界 最 新 的 循环 神经 网 络 
的 变种 ,比如 在 中 英文 翻译 和 维基 百科 字符 预测 问题 上 都 取得 突出 成 绩 的 Grid LSTM 
等 。 可 见 ， 在 TensorFlow 的 帮助 下 ， 应 用 也 可 以 紧 跟 学 术 前 沿 。 
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5.5 ”语言 模型 


对 于 很 多 自然 语言 处 理 领域 的 问题 , 比如 机 器 翻译 , 除了 要 确定 预测 结果 中 的 字 
词 集合 以 外 ,还 有 一 个 非常 重要 的 方面 就 是 要 评估 文本 序列 是 否 符合 人 类 使 用 的 习惯 。 
通俗 地 说 ,就 是 要 判断 文本 是 否 通顺 、 自 然 , 甚至 在 翻译 问题 上 ,“ 信 ”、“ 达 ”、“ 雅 ” 
是 一 种 更 加 高 级 的 要 求 。 语 言 模型 就 是 用 于 评估 文本 符合 语言 使 用 习惯 程度 的 模型 。 


要 让 机 器 来 评估 文本 是 否 符合 人 类 的 使 用 习惯 ,一 种 方式 是 通过 语言 学 方面 的 研 
究 ,制定 出 人 类 语言 的 范式 ,比如 说 陈述 句 是 由 主 谓 宾语 构成 的 、 定 语 修饰 语 需要 加 
在 名 词 前 面 等 等 ,然而 ,所 有 人 类 语言 的 共同 特点 就 是 字 词 组 合 具有 非常 大 的 灵活 性 ， 
同一 个 语义 可 以 有 多 种 表达 方式 , 甚至 许多 二 义 性 的 语言 带 来 了 幽默 的 成 分 , 是 喜剧 
的 重要 组 成 部 分 。 这 种 灵活 性 对 规则 的 制定 带 来 了 巨大 的 难题 。 


以 统计 学 为 基础 的 统计 语言 模型 是 目前 评估 文本 质量 的 主要 方法 。 统 计 语言 模型 
是 基于 预先 收集 的 大 规模 的 语 料 数据 , 以 真实 的 人 类 语言 为 标准 ,预测 文本 序列 在 语 
料 库 中 可 能 出 现 的 概率 ,并 以 此 概率 作为 评判 文本 是 否 “ 合 法 "的 指标 。 从 发 展 历史 上 
看 , 统计 语言 模型 大 致 经 历 了 三 个 主要 阶段 : NGram 语言 模型 , 神经 网 络 语言 模型 ， 
循环 神经 网 络 语言 模型 。 在 本 节 中 将 依次 介绍 这 三 种 常用 的 模型 。 


5.5.1 NGram 语言 模型 


NGram 模型 ， 也 称 为 N 元 模型 ， 是 自然 语言 处 理 中 常用 的 语言 模型 。 该 模型 首 
先 基于 马尔 科 夫 假设 , BD: 假设 在 一 段 文 本 中 , E n 个 单词 出 现 的 概率 只 与 前 面 有 限 
的 n-1 个 词 相关 ， 而 与 其 他 词 都 不 相关 。 基 于 这 样 一 种 假设 ， 可 以 评估 文本 中 每 一 个 
词 出 现 的 概率 , 那么 这 整 段 文本 的 合法 程度 可 以 通过 统计 每 ”个 词 在 语料库 中 出 现 的 
可 能 性 来 评估 ， 整 段 文本 的 概率 就 是 各 个 词 出 现 概率 的 乘积 。 

假定 5 表示 一 个 有 意义 的 句子 ， 它 由 一 串 特定 顺序 排列 的 词 (wi, Wo, .……, Wn) BBE, 
m 表示 句子 的 长 度 , 即 单词 的 个 数 。 计 算 S 在 整个 语料库 中 出 现 的 可 能 性 P(S), 或 表 
示 成 p(wi, Wa, .…, Wm), 可 以 根据 链 式 法 则 ， 分 解 为 : 


P(S) = p(Wy, Wz, ..., Wm) 
= pw) x p(w2|w1) x pwa]ws, w2) x ...x Pm ]ws, W2, ..., Wm-1) 
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基于 马尔 可 夫 假 设 ; 每 一 个 词 都 只 与 最 多 前 n 一 1 个 词 有 关 。 也 就 是 说 : 


PCwilw Wz» =, Wi-1) i«n 


pP(wilwi, wa, ..., Wi- ={ ; 
oo t-1) P(WilWi-q-1»Wi-(n-2» 5 Wi-1) izn 


当 整 段 文本 长 度 m 远 远 大 于 n 时 的 概率 计算 可 以 简化 为 : 
P(S) = p(w Way ees Wm) = I] p(w lw, Way wees Wi-1) 


t=1 


m 
= I] P(W;|Wi-(n—1)» Wi-(n-2) +» Wi-1) 


i=n 


对 于 每 一 个 词 出 现 的 条 件 概率 , 可 以 通过 在 语料库 中 统计 计数 的 方式 得 出 其 中 ， 


COURt(Wj. (n1) wo-2 = Wi- We) Be ANE FFB Wwi-in-1) Wi-(n-2) Wi Wi HUE 


语料库 中 的 次 数 。 
count(wi- (say Wi-(-2)  Wi-i Wi) P 
P(Wi|Wi-(n—1), Wi-(n—2) Wii) = ee Sa sea eee vo. 
Syeountwy "^ 


根据 上 述 模型 定义 可 以 看 出 , 当 n 越 小 时 , 模型 只 考虑 邻近 词语 之 间 的 关系 。 尤 


其 是 对 于 mn = 1 的 特殊 情况 , 被 称 之 为 unigram, 此 时 对 于 每 一 个 词 的 概率 评估 实际 上 
与 文本 的 上 下 文 无 关 , 仅 与 当前 词语 在 语料库 中 出 现 的 概率 有 关 。 但 人 们 不 会 以 一 个 
词 一 个 词 的 方式 交流 , 而 是 要 以 词组 成 句子 和 段落 , 所 以 要 预测 一 个 词 是 否 出 现 , 需 
要 考虑 上 下 文中 的 更 多 词 ， 即 增 大 的 取 值 ， 以 捕捉 更 多 的 有 用 信息 。 


然而 , 另 一 方面 , 当 n 越 大 时 ,虽然 模型 会 考虑 更 长 距离 的 上 下 文 之 间 的 关联 关 


系 ， 但 随 着 的 取 值 增 大 ， 语 言 模型 的 参数 越 多 ， 将 导致 参数 空间 过 大 到 无 法 估算 。 
若 词 表 集合 为 V, 其 中 的 单词 数量 为 |y|, 则 由 这 些 词组 成 的 NAS AA AVI", 

也 就 是 说 , 组 合 数 会 随 着 n 的 增 大 呈 指 数 级 增长 。 同 时 ， 对 于 一 条 用 于 训练 的 词 序列 
长 度 为 1 语 料 数据 ， 可 以 提供 的 n 元 词语 组 合 的 总 数 为 (1 一 n + 1)。 并 且 根 据 Zipf 定 


提供 的 信息 将 更 少 。 相对 于 语言 模型 的 参数 估计 需求 来 说 ， 语 料 数据 是 非常 稀疏 的 。 
除非 有 海量 的 各 种 类 型 的 语 料 数据 , 否则 大 量 的 ”元 组 合 都 不 曾 在 训练 语 料 中 出 现 过 ， 


| 

律 , 少量 词语 占据 了 大 部 分 的 出 现 频次 , 若 去 除 掉 重复 出 现 的 n TAA, 语 料 数据 能 | 
| 

| 

| 
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依据 最 大 似 然 估计 得 到 的 概率 将 会 是 0, 也 就 是 说 模型 可 能 仅仅 能 计算 寥寥 几 个 句子 。 
对 于 这 样 的 情况 ， 学 者 们 提出 了 多 种 不 同 的 平滑 方案 进行 估计 ， 比 如 加 一 平滑 ( Add 
One Smoothing), Good-Turing 平滑 、Katz's back-off 平滑 ， 以 及 插值 模型 等 。 


从 实际 应 用 方面 来 说 ， 最 常用 的 是 二 元 bigram ( Bn = 2 )， 或 三 元 trigram 即 
n = 3。 四 元 模型 提高 了 时 间 复 杂 度 ， 但 在 实际 效果 上 来 说 并 没有 比 三 元 模型 有 明显 
提高 ， 所 以 一 般 不 会 使 用 。 


5.52 ”神经 网 络 语言 模型 


传统 NGram 语言 模型 存在 比较 大 的 问题 。 一 方面 ， 由 于 数据 的 稀 蚊 性 导致 估算 
能 力 有 限 ， 仅 能 对 两 三 个 词 的 长 度 的 序列 进行 评估 ; 另 一 方面 ， 由 于 NGram 语言 模 
型 是 离散 模型 , 语义 相似 甚至 一 致 的 两 个 词语 对 于 语言 模型 来 说 是 完全 不 同 的 , 例如 
“诺基亚 ”和 “Nokia” 就 被 视 作 两 个 不 同 的 词语 分 别 对 待 ， 虽然 由 此 也 引入 一 些 针对 
性 的 改进 版 本 ， 但 并 未 从 根本 上 解决 类 似 问题 。 


为 了 解决 这 种 问题 ，Yoshua Bengio 等 人 在 2003 年 通过 引入 词 向 量 概念 , 提出 了 
基于 神经 网 络 的 神经 网 络 语言 模型 ( NNLM, Neural Network Language Model )。 


词 向 量 的 意思 是 使 用 一 个 向 量 来 表示 一 个 词 。 最 直观 也 最 常用 的 词 向 量 就 是 
one-hot 编码 ， 对 词 表 中 的 每 一 个 词 进 行 编号 ， 若 词 表 中 包含 了 40000 常用 词 ， 则 每 
一 个 单词 都 会 编码 为 一 个 长 度 40000 的 向 量 , 并 且 向 量 中 只 有 一 个 元 素 的 值 为 1, 其 
余 全 部 为 0。one-hot 编码 最 主要 的 问题 在 于 任意 两 个 词 之 间 都 是 孤立 的 , 在 语义 上 无 
法 建立 联系 。 另 一 种 方式 则 是 特征 向 量 表示 法 。 可 以 使 用 一 个 2 层 的 全 连接 神经 网 络 
概述 这 一 方法 。 字 符 串 上 下 文 构成 训练 样本 数据 集 。( 例 如 : 单词 ab,c 构成 的 语句 字 
符 串 “abc a”"， 若 以 当前 单词 为 目标 类 型 ， 前 后 长 度 为 1 的 单词 作为 特征 可 构成 单词 
训练 样本 对 “(b, a) , (a, b), (c, b), (b, c), (a, c), (c, a)”)。 对 于 , 40000 个 常用 词 的 情况 。 
收集 大 量 的 文本 数据 。 每 一 对 单词 样本 特征 使 用 大 小 为 [1,40000] 的 one-hot 编码 特征 
输入 2 层 全 连接 网 络 ， 网 络 的 第 一 层 是 一 个 大 小 为 [40000,m] 的 隐 含 层 矩 阵 。 为 简化 
说 明 ， 这 里 忽略 了 线性 偏 移 量 。 网 络 的 的 第 二 层 是 一 个 [m, 40000] 的 分 类 判定 矩阵 。 
因此 , 可 直接 使 用 单词 样本 上 下 文 特征 进行 分 类 问题 的 模型 训练 。 训 练 完毕 后 , 可 将 
第 一 层 大 小 为 [40000, m] 的 隐 含 层 特征 和 矩阵 作为 单词 向 量化 的 结果 。 因 模型 采用 的 是 
线性 结构 , 可 直接 在 单词 向 量化 空间 中 使 用 空间 距离 度量 单词 的 词义 相同 程度 。 与 常 
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规 的 神经 网 络 训练 过 程 类 似 , 整个 神经 网 络 的 模型 参数 可 使 用 方差 较 小 的 均匀 分 布 或 
高 斯 分 布 进行 初始 化 。 


在 神经 网 络 语言 模型 中 , 单词 的 特征 向 量 表示 法 也 成 为 词 向 量 。 它 是 神经 网 络 中 
对 应 模型 参数 ， 可 以 通过 训练 得 到 的 。 每 一 个 词 都 会 使 用 一 个 m 维 向 量 进行 表示 ， 
并 且 语 义 相似 的 词语 在 特征 空间 上 也 会 表示 为 相似 的 向 量 , 在 词 空间 中 的 距离 较为 
相近 。 


词 向 量 的 相关 方法 有 很 多 。 在 以 上 基于 分 类 问题 优化 词 向 量 的 基础 上 , 还 可 以 使 
用 更 复杂 的 模型 优化 方法 。 例如 , 图 5-23 是 Bengio 等 人 2001 年 发 表 的 论文 4 Neural 
Probabilistic Language Model 中 用 于 构造 语言 模型 所 使 用 的 三 层 神经 网 络 。 该 模型 同 
样 也 是 一 个 NGram 模型 ， 其中，(we_nyy.…,We-zsWe-1) 代 表 前 n 一 1 个 词 , 要 根据 这 
些 词 来 预测 下 一 个 词 ws。C(w) 表 示 词 w 所 对 应 的 词 向 量 。 在 网 络 的 输入 层 ， 词 被 转 
换 成 (n — 1) x mm 大 小 的 矩阵 ， 接 着 就 像 正常 的 神经 网 络 一 样 经 过 以 tanh 为 激活 函数 
的 非 线性 变换 ， 最 后 通过 softmax 将 输出 值 归 一 化 成 概率 ， 就 是 对 于 下 一 个 词 w 预 测 
的 条 件 概率 p(w|contexb。 在 这 样 的 模型 下 ， 模 型 就 可 以 像 一 般 神经 网 络 一 样 使 用 
梯度 下 降 算法 进行 优化 , 并 通过 训练 得 到 最 优 的 参数 解 。 这 其 中 , 词 向 量 的 编码 方式 
也 是 模型 的 参数 ， 包 含 在 C(w)。 也 就 是 说 ， 训 练 结束 后 ， 语 言 模型 和 词 向 量 可 以 同 
时 得 到 ， 如 图 5-23 所 示 。 


与 传统 的 NGram 语言 模型 比较 ， 神 经 网 络 语言 模型 的 参数 规模 与 词 表 规模 |V| 和 
上 下 文 依赖 长 度 成 线性 增长 , 在 同等 规模 的 语料库 基础 上 , 可 以 支持 更 长 距离 的 上 
下 文 依赖 。Bengio 在 APNews 数据 集 上 做 的 对 比 实验 也 表明 ， 神 经 网 络 语言 模型 的 
效果 比 精心 设计 平滑 算法 的 普通 NGram 算法 要 好 10% ~ 20% 
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i-th output = P(w, = i | context) 


across words 





index for wy 441 index for wy-2 index for w'-1 
523 ”神经 网 络 语言 模型 
5.5.3 ”循环 神经 网 络 语言 模型 


对 于 深度 学 习 算法 来 说 , 要 面临 的 一 大 核心 问题 就 是 如 何 减少 参数 个 数 , 毕竟 更 
少 的 参数 可 以 有 更 快 的 收敛 速度 。 语 言 模型 也 不 例外 ，Bengio 在 神经 网 络 语言 模型 
的 论文 中 就 有 提出 , 可 以 利用 循环 神经 网 络 来 降低 模型 参数 个 数 。2010 年 , 由 Tomas 
Mikolov 在 Recurrent neural network based language model 论文 中 提出 了 循环 神经 网 络 
语言 模型 (Recurrent Neural Network Language Model, RNNLM )。 


在 上 一 小 节 所 讲 的 基于 前 馈 神经 网 络 的 语言 模型 , 仍然 是 以 NGram 模型 为 基础 ， 
要 求 在 预测 下 一 个 词 的 时 候 依赖 前 n — 1 个 词 的 向 量 表示 。 从 前 文 对 循环 神经 网 络 的 
介绍 中 可 以 了 解 到 ，RNN 最 主要 的 特点 就 是 加 入 了 “记忆 ”的 因素 ， 在 预测 当前 时 
间 点 的 结果 时 ， 会 依赖 之 前 时 间 所 产生 的 记忆 。 在 语言 模型 中 ，RNN 的 这 一 特性 也 
非常 有 用 ， 通 过 引入 RNN， 可 以 消除 掉 n 个 词 的 窗口 限制 ， 以 全 局 的 上 下 文 信息 预 
测 当 前 词 的 概率 。 不 仅 如 此 ， 相 比 普通 前 馈 神经 网 络 来 说 ，RNN 的 参数 共享 可 以 大 
大 减少 模型 的 参数 规模 。 


5-24 是 循环 神经 网 络 模型 的 简化 版 示意 图 。 可 以 看 到 ， 模 型 结构 非常 简单 ， 
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包含 一 个 输入 层 ,接收 输入 词 的 词 向 量 ; 中 间 隐 层 保存 上 下 文 状态 ; 输入 与 上 下 文 相 
结合 ， 产 生 输出 为 one-hot 编码 的 词 向 量 。 


INPOT (X) OT POT (c) 


CONTEXT (t) 


CONTEXT (t-1) 


95-24 ”循环 神经 网 络 语言 


图 5-25 是 循环 神经 网 络 语言 模型 的 展开 形式 。 在 图 中 ,上 文 信息 (wu Wa, … We-1) 
通过 循环 神经 网 络 编码 为 s_; ， 是 上 一 个 隐藏 层 ， 代 表 着 对 上 文 的 记忆 。st-: 与 当前 
词语 w, 相 结合 ， 可 以 得 到 (wi, wo, .…, wt) 的 表示 st， 通 过 编码 得 到 预测 的 词 向 量 y.。 


wc) yi 


wit) yit) 





a(=-3) 


图 5-25 ”循环 神经 网 络 语言 模型 的 展开 形式 
循环 神经 网 络 语言 模型 消除 了 NGram 模型 对 于 词 窗口 的 限制 ， 充 分 利用 了 完整 
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的 上 下 文 信息 来 进行 预测 评估 ,能 达到 比 其 他 语言 模型 更 好 的 效果 。 在 Tomas Mikolov 
的 论文 中 ， 即使 使 用 最 基础 最 简单 的 RNN (原文 为 the simplest possible version of 
recurrent neural ) 和 最 基础 的 BPTT 优化 算法 ， 也 可 以 达到 比 NGram 模型 更 好 的 效 
果 ， 若 使 用 更 复杂 的 网 络 和 更 先进 的 优化 算法 ， 效 果 还 会 进一步 提升 。 


5.54 语言 模型 也 能 写 代码 


在 语言 模型 中 , 基础 的 预测 单位 是 一 个 词 也 可 以 是 一 个 字 。 利用 语言 模型 ， 可 以 
评估 一 段 文本 是 否 符合 人 类 的 语言 使 用 习惯 ， 也 可 以 通过 预测 字符 来 生成 一 段 程序 。 


什么 ? 能 写 程序 的 程序 ? 是 的 , 就 是 这 么 科幻 。 下 面 就 来 介绍 , 基于 TensorFlow 
的 源码 作为 语料库 ， 使 用 循环 神经 网 络 语言 模型 生成 新 代码 的 实例 。 


1. 训练 数据 准备 


TensorFlow 是 一 个 比较 复杂 而 庞大 的 项 目 , 整个 系统 由 多 种 语言 的 程序 构成 。 通 
过 Github， 可 以 很 方便 地 获取 项 目的 源码 。 其 中 ，Python 部 分 程序 的 文件 总 数 达 到 
了 1200+, 在 本 例 中 就 使 用 这 些 代码 作为 语料库 来 训练 一 个 能 写 程序 的 语言 模型 。 
WERE, 本 节 的 后 续 代码 将 略 去 参数 配置 的 相关 代码 。 因 这 部 分 内 容 相对 直观 , 本 
书 配套 的 github 源码 中 给 出 了 完整 的 实例 。 


首先 ,在 获取 TensorFlow 源码 之 后 ,可 以 从 源码 目录 中 遍历 到 所 有 Python RE: 


def find all python files(source path): 

# find all python source code 

tf code files = [] 
for root, dirs, files in os.walk(source path): 
for file in files: 

code file = os.path.join(root, file) 
if code file.endswith('.py'): 
tf code files.append(code file) 

return tf code files 


以 我 们 对 程序 代码 的 先 验 经 验 可 以 知道 ， 代 码 中 所 有 的 字符 均 为 ASCH 码 表 的 
范围 之 内 , 即 [1,256]”3”。 在 此 基础 上 , 为 了 便于 处 理 , 可 以 人 额外 增加 两 个 特殊 字符 : 
23 ASCII 表 中 0 为 空 字符 ， 无 法 被 直接 打出 。 


à 152 
ww ai bt. com [1 D] D D] D. 


5 RNN“ 能 说 会 道 ” T 


BOF = 257 和 EOF = 258， 分 别 代表 代码 文件 起 始 和 结束 。 


从 字符 粒度 上 看 ,每 个 代码 文件 可 以 表示 为 一 个 字符 序列 。 按 上 述 字符 编码 , 程 
序 文本 实际 上 可 以 表示 为 一 个 整数 序列 。 序 列 中 的 每 个 元 素 的 取 值 都 在 [1 258] 的 范 
围 之 中 ， 即 词 表 (字符 集 ) 规模 为 58%。 利 用 下 面 代码 片段 ， 可 以 将 所 有 Python X 
件 读 入 成 为 字符 序列 ， 组 成 语料库 ， 代 码 如 下 。 


BOF 
EOF 


257 
258 


def read source code data (code files): 
data = [] 
for code file in code files: 
file r - open(code file, 'r') 
curr data - [] 
curr data.append(BOF) 
for dataline in file r: 
for c in dataline: 
curr data.append(ord(c)) 
curr data.append(EOF) 
data.extend(curr data) 
file r.close() 
return data 


按照 机 器 学 习 的 一 半 方 法 ， 将 整个 语 料 数据 划分 成 训练 集 train_data、 验 证 集 
valid data 和 测试 集 test_data。 对 于 每 一 部 分 的 数据 集 ， 将 序列 数据 进行 切割 ， 并 按 
batch_size 组 合成 模型 输入 需要 的 tensor， 代 码 如 下 。 


def tf code producer(raw data, batch size, num steps, name=None) : 
"nn 
This chunks up raw data into batches of examples and returns 
Tensors 
that are drawn from these batches. 





Args: 
raw data: one of the raw data outputs from tf code raw data. 


24 实际 上 ， 由 于 ASCII 码 表 中 的 很 多 字符 都 不 能 被 直接 打出 ， 代 码 文件 中 出 现 的 字符 集 大 小 
仅 为 149， 也 就 是 所 有 能 通过 键盘 打出 的 字符 集合 。 利 用 这 一 条 件 可 以 进一步 优化 编码 ， 
缩小 字符 集 的 规模 。 考 虑 到 简化 实现 ， 本 书 例子 中 仅 把 每 个 字符 c 直接 映射 为 ord(c)。 
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batch size: int, the batch size. 
num steps: int, the number of unrolls. 
name: the name of this operation (optional). 


Returns: 


A pair of Tensors, each shaped [batch size, num steps]. 
The second element of the tuple is the same data time-shifted 
to the right by one. 


"um 
with tf.name scope(name, "TensorFlowCodeProducer", 
[raw data, batch size, num steps]): 
raw data = tf.convert to tensor(raw data, name-"raw data", 
dtype=tf.int32) 


data len = tf.size(raw data) 

batch len - data len // batch size 

data - tf.reshape (raw data[0: batch size * batch len], 
[batch size, batch len]) 


epoch size = (batch len - 1) // num steps 
assertion - tf.assert positive( 
epoch size, 


message-"epoch size == 0, decrease batch size or 
num steps") 


with tf.control dependencies([assertion]): 
epoch size - tf.identity(epoch size, name-"epoch size") 


i- tf.train.range input producer (epoch size, shuffle-False). 
dequeue () 


X = tf.slice(data, [0, i * num steps], [batch size, 
num steps]) 


x.set shape([batch size, num steps]) 
y = tf.slice(data, [0, i * num steps + 1], [batch size, 


num steps]) 
y.set shape([batch size, num steps]) 
return x, y 
以 文件 中 的 字符 串 为 "Hello, TensorFlow!" 为 例 ， 字 符 序 列 对 应 的 整数 数组 为 ， 
[257,72,101,108,108,111,44,32,84,101,110,115,111,114,70,108,111,119,33,258] 


Zi batch size 7j 3, num steps 为 4， 则 期 望 切割 出 大 小 为 3 x 4 的 输入 tensor 
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和 同样 大 小 的 输出 tensor. 


首先 根据 batch_size = 3, 把 数列 转换 成 3 x 6 大 小 的 矩阵 。 注 意 会 忽略 多 余部 分 。 


257 72 101 108 108 111 
44 32 84 101 110 us| 
111 114 70 108 111 119 
其 次 根据 num_steps = 4， 模 型 输入 大 小 〈 此 处 指 循环 神经 网 络 展开 之 后 输入 大 
小 ) 为 4 个 一 组 。 当 输入 为 [257,72, 101 108] 时 ， 其 对 应 的 输出 应 为 右 移 一 位 的 序列 
[72, 101, 108, 108]. 


x = [[257, 72, 101, 108], [44, 32, 84, 101], [111 114, 70, 108]] 
y = [[72, 101, 108, 108], [32, 84, 101, 110], [114, 70, 108, 111]] 
2. 语言 模型 实现 


TensorFlow 官方 教程 中 有 基于 Penn Tree Bank (简称 PTB ) 数据 集 所 构建 的 语 
BMA PTBModel。 在 此 例 中 ， 可 以 借鉴 其 实现 构建 TFCodeModel。TFCodeModel 
类 实现 了 模型 的 结构 以 及 损失 函数 的 定义 。 其 中 ， 人 fnn.mn_cell.BasicLSTMCell 函数 
定义 了 一 个 隐 含 状态 特征 数 和 输出 特征 维 数 都 为 size 的 LSTM 网 络 结构 。LSTM 网 
络 结构 返回 二 元 组 ， 元 组 中 的 两 个 分 量 分 别 都 是 长 度 为 size 的 输出 结果 和 状态 特征 。 
tf.contrib.mn.DropoutWrapper 函数 仅 当 训练 时 运行 ， 此 时 在 网 络 结构 中 加 入 dropout 
E. tf.nn.mn_cell.MultiRNNCell 是 构建 多 个 独立 的 串联 循环 网 络 结构 ， 其 中 每 个 循环 
网 络 使 用 独立 的 网 络 模型 参数 。 该 函数 的 输入 参数 [lstm_cell] x config.num_layers 表 
示 ， 产 生 config.num layers 个 独立 的 LSTM 网 络 结构 操作 列表 ， 代 码 如 下 。 


class TFCodeModel (object): 
"""The TensorFlow python codelanguage model.""" 


def init__(self, is training, config, input ): 
self. input - input. 
batch size = input .batch size 
num steps - input .num steps 
size - config.hidden size i 
vocab size - config.vocab size | 
| 





s 语言 模型 使 用 多 层 以 LSTM 为 基本 单元 的 循环 神经 网 络 
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lstm cell = tf.nn.rnn cell.BasicLSTMCell(num units-size, 
state is tuple-True) 

if is training and config.keep prob « 1: 

lstm cell - tf.contrib.rnn.DropoutWrapper( 

lstm cell, output keep prob-config.keep prob) 

cell - tf.nn.rnn cell.MultiRNNCell( 

[lstm cell] * config.num layers, state is tuple-True) 
# 初始 隐 含 状态 为 0 


Self. initial state = cell.zero state(batch size, tf.float32) 


在 使 用 LSTM 网 络 前 使 用 cell.zero state 函数 构建 全 零 初始 输出 特征 和 状态 特征 。 
函数 tf.nn.embedding lookup 负责 从 随机 产生 的 初始 词 向 量 集合 embedding 中 获取 对 
应 的 样本 特征 ， 代 码 如 下 。 


# 初始 化 词 /字符 向 量 表示 〈 后 续 训练 过 程 中 会 更 新 ) 
with tf.device("/cpu:0"): 

embedding = tf.get variable( 

"embedding", [vocab size, size], dtype-data type()) 
inputs - tf.nn.embedding lookup (embedding, 
input .input data) 

if is training and config.keep prob « 1: 

inputs - tf.nn.dropout (inputs, config.keep prob) 


语句 (cell_output, state) = cell(inputs[:, time_step, :], state) 实 现 对 LSTM 网 络 的 1 次 
循环 调用 。 因 该 语句 在 变量 作用 域 “RNN” 中 调用 ， 当 在 该 作用 域 中 使 用 for 循环 多 
次 调用 LSTM 循环 时 必须 配合 使 用 tf.get_variable_scope().reuse_variables() 水 数 确保 网 
络 节点 参数 的 重复 使 用 。 GM, cell(inputs[:, time step, :], state) 语 句 将 产生 同名 网 络 节 
点 导致 报错 ， 代 码 如 下 。 


# 定义 输出 层 
outputs = [] 
state = self. initial state 
with tf.variable scope ("RNN"): 
for time step in range(num steps): 
if time step > 0: tf.get variable scope().reuse 
variables () 
(cell output, state) = cell(inputs[:, time step, :], 
state) 
outputs.append(cell output) 
output = tf.reshape(tf.concat(1, outputs), [-1, size]) 
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softmax_w 和 softmax b 是 尺寸 分 别 为 [size, vocab_size] 和 [vocab_size] 的 随机 张 量 。 
它们 表示 线性 分 类 模型 的 参数 。 函 数 tnn.seq2seq.sequence_loss_by_example 负责 实 
现 损失 函数 的 计算 。 其 中 ， 输 入 参数 [logits] 表 示 预 测 的 分 类 置信 度 结果 。 
[tf.reshape(input_.targets, [-1])] 表 示 目 标 类 型 的 one-hot 编码 张 量 。 [tf.ones([batch size * 
num steps), dtype=data_type())] 表 示 各 类 型 在 损失 函数 的 计算 中 权重 全 部 相同 都 为 1， 
代码 如 下 。 


# 定义 softmax 层 
Softmax w = tf.get variable( 
"softmax w", [size, vocab size], dtype=data_type()) 
softmax b = tf.get variable("softmax b", [vocab size], 
dtype-data type()) 


# 定义 损失 函数 
logits = tf.matmul(output, softmax w) 十 softmax b 
loss - tf.nn.seq2seq.sequence loss by example( 
[1ogits], 
[tf.reshape(input .targets, [-1])], 
[tf.ones([batch size * num steps], dtype=data_type())]) 
self. cost = cost = tf.reduce sum(loss) / batch size 
self. final state - state 


if not is training: 
return 


最 后 ， 函 数 thclip by global nom 实现 梯度 裁剪 ， 防 止 梯度 爆炸 。 
tftrain.GradientDescentOptimizer 表示 梯度 下 降 算法 。 定 义学 习 率 占 位 符 , 在 运行 网 络 
过 程 中 可 动态 调整 该 参数 。 训 练 的 文本 样本 信息 由 其 他 函数 事先 载 入 内 存 直 接 使 用 ， 
代码 如 下 。 


# 定义 优化 模块 ， 根 据 损失 函数 ， 计 算 梯度 ， 使 用 梯度 下 降 方法 更 新 网 络 
self. lr = tf.Variable(0.0, trainable-False) 
tvars = tf.trainable variables () 
grads, = tf.clip by global norm(tf.gradients (cost, tvars), 
config.max grad norm) 
optimizer - tf.train.GradientDescentOptimizer(self. lr) 
self. train op - optimizer.apply gradients( 
zip(grads, tvars), 
global step-tf.contrib.framework.get or create 
global step()) 
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Self. new lr = tf.placeholder( 
tf.float32, shape-[], name-"new learning rate") 
Self. lr update - tf.assign(self. lr, self. new lr) 


def assign lr(self, session, lr value): 
session.run(self. lr update, feed dict-(self. new lr: 
lr value]) 
语言 模型 采用 评估 指标 : 困惑 度 ( Perplexity )。 以 输入 文本 (wi, wz, Wa) IE, 
语言 模型 LM 的 困惑 度 定义 为 


T 
P= pon >i logy p(wi|context) 


当 对 于 所 有 p(wi|contexb) 均 能 精确 预测 正确 时 ， 也 就 是 p(wi|context) 恒 等 于 1, 
这 时 perplexity 最 小 为 0。 当 语 言 模型 对 所 有 p(wi|context) 进 行 随机 预测 时 ， 这 时 
pw;|context) 1538-7 IV| 为 词 表 规 模 , 词 表 中 任何 一 个 词 的 可 能 性 相同 ， oer Jo 
这 时 困惑 度 为 IV|。 可 以 看 到 ， 语 言 模型 预测 得 越 精 确 ， p(wi|context) 越 大 ， 困 惑 度 
越 小 。 

3. 语言 模型 训练 

语言 模型 的 训练 过 程 可 以 分 成 多 轮 , 每 轮训 练 遍历 一 遍 所 有 训练 数据 。 每 轮训 练 
过 程 包含 model.input.epoch size 次 模型 训练 ， 每 次 训练 迭代 的 输入 为 batch size * 


num_steps 大 小 的 tensor。 


训练 过 程 通 过 反复 调用 run epoch 函数 来 完成 。 终 止 训练 一 般 有 几 种 控制 方式 ， 
第 一 种 是 在 到 达 固定 训练 迭代 次 数 后 终止 , 第 二 种 是 当 验证 集 的 评估 代价 指标 达到 革 
个 阔 值 时 终止 ,第 三 种 方式 是 当 验 证 集 评 估 代 价 指标 在 连续 几 次 迭代 中 的 差距 小 于 某 
个 阐 值 ,也 就 是 训练 不 再 有 改进 时 终止 。 本 例 中 采取 第 一 种 固定 迭代 轮 数 的 方式 , R 
码 如 下 。 


import time 
import numpy as np 


def run epoch(session, model, eval op-None, verbose-False): 
"""Runs the model on the given data.""" 
start time - time.time() 
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ll 


costs 
iters 


0.0 
0 
State = session.run(model.initial state) 


fetches = ( 
"cost": model.cost, 
"final state": model.final state, 
} 
if eval_op is not None: 
fetches["eval_op"] = eval_op 


for step in range (model.input.epoch size): 


feed dict - () 
for i, (c, h) in enumerate (model.initial_state): 
feed. dict[c] = state[i].c 


feed dict[h] = state[i].h 


vals = session.run(fetches, feed dict) 
cost = vals["cost"] 
state - vals["final state"] 


costs += cost 
iters += model.input.num steps 


if verbose and step % (model.input.epoch size // 10) == 10: 
print ("%.3f perplexity: $.3f speed: $.0f wps" $ 
(step * 1.0 / model.input.epoch size, np.exp (costs 
/ iters), 
iters * model.input.batch size / 
(time.time() - start time))) 
returnnp.exp(costs / iters) 


类 TFCodeInput 实 现 训练 数据 的 载 入 内 存 操作 。 相 关 代 码 定义 如 下 oself.input data, 
self.targets 分 别 代表 单词 序列 特征 和 目标 序列 类 型 。 


class TFCodeInput (object): 
"""The input data.""" 
def init (self, config, data, name-None) : 
self.batch size - batch size - config.batch size 
self.num steps = num steps = config.num steps 
self.epoch size = ((len(data) // batch size) - 1) // 
num steps 
self.input data, self.targets = tclm reader.tensorflow code, 
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producer( 
data, batch size, num steps, name-name) 


函数 tclm reader.tensorflow code producer 则 负责 实现 数据 的 内 存 载 入 转换 以 及 
为 模型 提供 batch 训练 数据 。 函 数 tf.convert to tensor 实现 Python 数据 与 TensorFlow 
张 量 类 型 的 转换 。epoch_size 定义 了 循环 1 次 完整 数据 集 对 应 的 batch 训练 数据 包 传 
入 的 次 数 。 函 数 tfassert_positive 和 tf.control dependencies 确保 epoch size 必须 为 大 
于 等 的 值 ， 防 止 无 效 的 参数 输入 。 人 ftrain.range_input_producer 函数 输入 最 大 batch € 
的 所 在 序号 ， 返回 一 个 独立 线程 负责 运行 线程 整形 队列 出 队列 操作 。 最 后 tfslice 函 
数 定义 操作 ， 从 原始 数据 集中 裁剪 出 batch 数据 包 保存 至 类 成 员 变 量 中 ， 代 码 如 下 。 


def tensorflow code producer (raw data, batch size, num steps, 
name-None): 
with tf.name scope (name, "TensorflowCodeProducer", [raw data, 
batch size, num steps]): 
raw data = tf.convert to tensor(raw data, name-"raw data", 
dtype-tf.int32) 


data len - tf.size(raw data) 
batch len - data len // batch size 
data = tf. reshape (raw data[0: batch size * batch len], [batch size, 
batch len]) 


epoch size = (batch len - 1) // num steps 
assertion - tf.assert positive( 
epoch size, 
message-"epoch size -- 0, decrease batch size or num steps") 
with tf.control dependencies ([assertion]): 
epoch size = tf.identity(epoch size, name-"epoch size") 


i= tf.train.range_input_producer (epoch_size, shuffle=False). 
dequeue () 
x=tf.slice(data, [0, i * num steps], [batch size, num steps]) 
x.set shape([batch size, num steps]) 
y = tf.slice(data, [0, i * num steps + 1], [batch size, 
num steps]) 
y.set shape([batch size, num steps]) 
return x, y 


在 main 函数 中 使 用 了 3 次 with t£name scope 定义 了 训练 、 验 证 和 测试 操作 。 
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tfrandom uniform initializer 函数 创建 张 量 变量 的 随机 初始 化 操作 。 函 数 
tf.train.Supervisor 是 模型 训练 的 集成 操作 集合 类 ， 它 集成 了 ttrain.Saver 和 tf. Session 
等 类 操作 。 它 的 成 员 函 数 saver 与 tftrain.Saver 类 的 对 象 对 应 。 成 员 函 数 
managed session 与 tf. Session 类 的 对 象 对 应 ， 代 码 如 下 。 


def main(): 
# 读 入 数据 
raw data = read source code data(FLAGS.source path) 
train data, valid data, test data - split dataset(raw data) 


config = get config() 
eval config - get config() 
eval config.batch size - 1 
eval config.num steps - 1 


with tf.Graph().as default(): 
initializer = tf.random uniform initializer(-config.init scale, 
config.init scale) 

with tf.name scope ("Train"): 

train input = TFCodeInput (config-config, data-train data, 3 
name-"TrainInput") i 
with tf.variable scope("Model", reuse=None, 
initializer-initializer): 

m - TFCodeModel(is training-True, config-config, 
input -train input) 

tf.summary.scalar("Training Loss", m.cost) 
tf.summary.scalar("Learning Rate", m.lr) 


with tf.name scope ("Valid"): 
valid input = TFCodeInput (config-config, data-valid data, | 
name-"ValidInput") 
with tf.variable scope ("Model", reuse-True, 
initializer-initializer): 
mvalid - TFCodeModel(is training-False, config-config, 
input -valid input) 
tf.summary.scalar("Validation Loss", mvalid.cost) 


with tf.name scope("Test"): 
test input = TFCodeInput(config-eval config, data=test_ 
data, 
name="TestInput") 
with tf.variable scope("Model", reuse-True, 
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initializer-initializer): 
TFCodeModel(is training-False, config-eval config, 


mtest = 


sv 


input -test input) 


tf.train. Supervisor (logdir-FLAGS.save | path) 


with sv.managed | Session() as session: 
for i in range(config.max max epoch): 
lr decay 
config.max epoch, 0.0) 


lr decay) 


print ("Epoch: 


train_op, 
verbose=True) 


print ("Epoch: 


if FLAGS.save_path: 


m.assign lr(session, 


i +i 
train_perplexity 


config.lr decay ** max(i + 1 


%d Learning rate: 


config.learning_rate 


多 .3f" $ ( 


session.run(m.1r))) 


= run_epoch(session, m, eval_op=m. 


$d Train Perplexity: %.3f£" % ( 


i+ i, train_perplexity) ) 
valid_perplexity = 
print("Epoch: %d Valid Perplexity: $.3f" % ( 
i 1, valid perplexity)) 


test perplexity - 
print ("Test Perplexity: $.3f" % test _perplexity) 


run 


run epoch (session, mvalid) 


| epoch (session, mtest) 


print ("Saving model to %s." $ FLAGS.save path) 
Sv.saver.save(session, FLAGS.save path, 


4. 


言 模型 训练 效果 


global . 


Step-sv.global step) 


上 述 模 型 训练 过 程 中 , 通过 日 志 可 以 记录 每 轮 模型 训练 之 后 ， 训练 集 和 验证 集中 
的 困惑 度 perplexity 评估 指标 数值 ， 代码 如 下 。 


HB dk sb dk db db wk 
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Epoch: 


oOooooooco 


.001 
.101 
.201 
.301 
.401 
.501 


1 Learning rate: 
233.550 speed: 1458 wps 


perplexity: 
perplexity: 
perplexity: 
perplexity: 
perplexity: 
perplexity: 


CO) C) C) wm 心 


.862 
.646 
-236 
-073 
.010 


1.000 


speed: 
Speed: 
speed: 
speed: 
speed: 


3676 wps 
3879 wps 
3950 wps 
662 wps 
161 wps 
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* 0.600 perplexity: 2.942 speed: 165 wps 
# 0.700 perplexity: 2.891 speed: 155 wps 
# 0.800 perplexity: 2.849 speed: 177 wps 
# 0.900 perplexity: 2.813 speed: 198 wps 
# Epoch: 1 Train Perplexity: 2.785 

# Epoch: 1 Valid Perplexity: 4.057 

* Epoch: 2 Learning rate: 1.000 


# Epoch: 10 Learning rate: 0.016 

# Epoch: 10 Train Perplexity: 2.228 
* Epoch: 10 Valid Perplexity: 2.721 
# Epoch: 11 Train Perplexity: 2.232 
# Epoch: 11 Valid Perplexity: 2.705 
# Epoch: 12 Train Perplexity: 2.235 
# Epoch: 12 Valid Perplexity: 2.695 
# Epoch: 13 Train Perplexity: 2.235 
# Epoch: 13 Valid Perplexity: 2.690 
# Test Perplexity: 2.674 

# Saving model to tc.lm. 


可 以 看 到 随 着 训练 轮 数 的 增加 , 训练 集 和 验证 集中 的 困惑 度 指标 都 持续 下 降 , 并 
且 在 10 轮训 练 之 后 已 趋 于 平稳 。 


5.5.5 ”改进 方向 


对 于 语言 模型 , 如 果 字 符 集 规模 比较 小 , 简单 的 循环 神经 网 络 模型 就 可 以 得 到 比 
较 不 错 的 效果 。 但 对 于 更 普遍 的 应 用 场景 来 说 ， 模 型 还 可 以 从 多 种 角度 进行 优化 。 


一 方面 , 从 词 的 表示 来 说 , 词 表 的 选择 可 以 是 单词 粒度 或 者 是 字符 粒度 。 若 以 字 
符 作为 最 小 单元 ， 则 不 需要 考虑 分 词 或 单词 归 一 化 等 问题 5， 词 表 规模 也 比较 小 ,但 
缺点 是 缺少 了 语义 信息 。 而 若 以 单词 作为 最 小 单元 , 则 每 个 输入 单元 的 语义 信息 得 以 
保留 ， 但 词 表 规模 会 显著 增 大 ， 且 需要 额外 分 词 /Stemming 模块 。 词 表 规 模 是 一 个 影 
响 循 环 神经 网 络 性 能 的 重要 因素 , 针对 这 一 方面 也 有 很 多 针对 性 的 改进 工作 , 如 合并 
低频 词 为 rare token、 词 聚 类 、LightRNN 等 技术 。 


除了 单元 表示 粒度 , 词 向 量 也 是 需要 考虑 的 方面 。 对 词 的 编码 可 以 使 用 静态 的 映 


25 分 词 问题 如 “Beijing Olympic" 可 以 作为 一 个 专 有 名 词 , 也 可 以 分 成 "Beijing # “Olympic” 
两 个 词 。 单 词 归 一 化 问题 比如 book 和 books 应 被 归 一 化 为 同一 个 词 。 


163 4 
ww ai bbc. com DO BLU D]. 


E 深度 学 习 原 理 与 TensorFlow 实践 


射 表 ， 也 可 以 是 通过 学 习 不 断 调 整 的 动态 编码 。 同 时 ，one-hot 编码 方式 与 稠密 型 编 
码 方式 也 有 效率 上 的 差别 。 对 于 单词 粒度 的 模型 而 言 ， 因 为 词 表 规 模 相 对 比较 大 , 若 
使 用 one-hot 编码 则 会 导致 向 量 维度 太 高 , 所 以 一 般 情 况 下 会 采用 word embedding 技 
术 的 稠密 向 量 表示 。 


男 一 方面 , 从 模型 结构 来 说 ,循环 神经 网 络 模型 与 其 他 深度 学 习 模型 一 样 , 增 加 
网 络 深度 是 必然 的 进化 方向 。 但 如 同上 一 章 介绍 卷 积 神经 网 络 类 似 , 在 增加 网 络 深度 
的 时 候 会 遭遇 梯度 消失 的 问题 ， 在 实践 中 并 不 容易 优化 。 另 外 ， 其 它 RNN 和 LSTM 
的 变种 模型 , 如 双向 循环 神经 网 络 ( Bidirectional RNNs ) 等 新 模型 , 都 是 尝试 的 方向 。 


5.6 ”对 话机 器 人 


在 当今 的 信息 时 代 , 计算 机 作为 重要 的 信息 传递 工具 已 逐渐 在 全 球 范围 普及 。 计 
算 机 在 设计 之 初 是 用 来 执行 一 些 人 为 设 定 的 、 规 范 的 、 无 二 义 性 的 二 进 制 指令 。 这 些 
间 令 不 过 是 简单 的 数字 或 逻辑 运算 。 它 们 无 法 智能 地 理解 并 处 理 信息 。 但 在 这 指令 的 
基础 上 ， 通 过 一 些 算法 控制 ,可 以 完成 一 些 信息 理解 与 处 理 的 能 力 。 例 如 ， 可 以 让 计 
算 机 理解 语言 ， 并 自动 的 返回 对 话 结果 。 


这 里 所 说 的 对 话机 器 人 〈 Chatbot ) 是 指 能 够 使 用 自然 语言 进行 智能 对 话 的 软件 
系统 。 智 能 对 话 是 自然 语言 处 理 领域 的 一 个 经 典 问题 。 类 似 的 问题 还 有 问答 系统 
( Query-Answer System )、 会 话 系统 ( Dialogue System ) 等 。 虽然 它们 的 内 涵 和 外 延 不 
AE], 但 总 体 上 ,都 是 希望 搭建 支持 自动 对 话 的 系统 , 让 机 器 能 以 自然 语言 的 方式 
与 人 类 对 话 /沟通 。 


语言 是 人 与 人 之 间 交 流 的 主要 方式 。 虽 然 科学 家 们 尚 没有 完全 理解 人 类 是 如 何 学 
习 第 一 语言 的 整个 过 程 。 但 学 习 过 第 二 语言 的 人 们 都 明白 ,语言 学 习 分 为 多 个 阶段 而 
且 是 一 个 漫长 的 过 程 。 首 先 的 初始 阶段 是 达意 ， 能 够 表达 基本 的 需求 或 说 明 。 比 如 ， 
“吃饭 "今天 是 礼拜 天 "。 接 着 是 在 满足 语法 规则 的 前 提 下 表达 更 复杂 的 意思 。 比 如 ， 
“今天 是 礼拜 天 , 我 想 出 去 吃饭 "。 最 后 , 是 在 了 解 语言 背景 文化 的 基础 上 熟练 掌握 并 
运用 语言 。 比 如 ,，“ 听 说 有 家 餐馆 不 错 ， 总 是 要 吃饭 的 ， 不 如 一 起 呐 ? ”无 论处 于 什 
么 语言 学 习 阶 段 。 词 汇 量 都 是 语言 学 习 的 关键 基础 。 没 有 足够 的 词汇 量 ， 就 无 法 熟练 
流畅 的 使 用 语言 。 人 们 在 学 习 第 二 语言 时 , 对 于 第 二 语言 的 词汇 积累 都 是 在 第 一 语言 
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然而 , 计算 机 无 法 模拟 人 类 学 习 语言 的 过 程 。 计算机 更 擅长 于 科学 计算 以 及 各 种 
数值 表示 和 存储 。 很 自然 的 , 人 们 想到 使 用 数值 信息 让 计算 机 自然 语言 的 构建 词汇 信 
息 。 然 后 ， 通 过 使 用 算法 对 数值 进行 操作 来 模拟 词汇 的 运用 。 


5.6.1. 对 话机 器 人 的 发 展 


构建 对 话机 器 人 的 主要 技术 方案 , 粗略 分 类 ,可 以 划 为 三 种 : 基于 规则 , 基于 检 
索 和 基于 生成 模型 。 


1. 基于 规则 的 对 话 系统 


基于 规则 对 话机 器 人 在 实现 算法 上 主要 包括 字符 串 匹配 查找 ， 正 则 表达 式 等 。 
AIML ( Artificial Intelligence Markup Language ) 是 一 种 用 于 定义 会 话 模板 的 XML 语 
言 ,历史 上 有 多 个 基于 AIML 的 对 话机 器 人 程序 曾经 获得 罗布 纳 奖 ( Loebner prize ys, 
比如 A.LLC.E ( Artificial Linguistic Internet Computer Entity )。 


下 面 是 一 个 简单 的 AIML 例子 ， 代 码 如 下 : 


<?xml version-"1.0" encoding-"UTF-8"?» 
<aiml version="1.0"> 
<meta name="author" content="Mobo"/> 
<meta name-"language" content="zh"/> 
<category> 
<pattern>###</pattern> 
«template» FKW~~</template> 
</category> 
<category> 
<pattern>Wii</pattern> 
<template> 
<srai>THANKS</srai> 
</template> 
</category> 
<category> 
«pattern» *</pattern> 
<template> 





26 罗布 纳 奖 是 纽约 慈善 家 Hugh Loebner 从 1991 年 开始 组 织 的 正式 图 灵 测 试 。 
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<srai>THANKS</srai> 
</template> 
</category> 
<category> 
<pattern>THANKS</pattern> 
<template> 
<random> 
<1i> 不 用 谢 。</1i> 
<1i> 这 是 我 应 该 做 的 。</1i> 
<1i> 客 气 ， 客 气 ~</1i> 
</random> 
</template> 
</category> 
</aiml> 
</> 
上 述 AIML 中 指定 了 一 系列 对 话 的 规则 。 比如 当 输 入 为 “拜拜 " 时 , 程序 回复 “下 
次 见 ~ ~” 当 输 入 为 “谢谢 ” 或 者 符合 正则 表达 式 “ 澳 谢 *” 时 ,随机 回复 “不 用 谢 ”、 
“这 是 我 应 该 做 的 ”、“ 客 气 ， 客 气 ~” 中 的 一 条 。 


基于 规则 的 算法 ， 受 限于 规则 的 数量 , 还 受 限于 正则 表达 式 的 表达 能 力 和 匹配 效 
率 。 不 同 于 数学 推导 ,自然 语言 在 不 同 的 语 境 下 表达 的 是 完全 不 同 的 意 轧 。 比 如,“ 我 
挂 了 ”在 打 电 话 过 程 中 表示 是 结束 通话 的 意思 , 而 在 学 生 们 讨论 结果 时 则 表示 考试 不 
及 格 。 若 想 在 AIML 模板 中 定义 文字 短语 在 不 同 语 境 回复 不 同 的 应 答 。 则 需要 编写 复 
杂 的 正则 表达 式 规则 模板 , 枚 举 出 每 一 个 语 境 对 应 的 关键 词 进行 匹配 关联 。 若 询问 语 
名 不 存在 对 应 的 匹配 规则 , 则 无 法 获得 结果 。 在 实践 中 常 使 用 语 料 数据 挖掘 算法 自动 
构建 AIML 配置 数据 , 来 减少 人 工 标注 的 工作 量 。 但 不 管 这 样 ， 这 种 应 答 方式 始终 都 
是 根据 人 工 经 验 设置 的 。 算 法 只 负责 人 工 经 验 与 机 器 的 信息 转换 , 机 器 并 没有 学 习 获 
取 语 言 使 用 的 能 力 。 


2. 基于 检索 的 对 话 系统 


定义 复杂 的 会 话 规则 是 十 分 烦琐 且 困 难 的 , 对 此 基于 检索 的 对 话 系统 则 进行 了 改 
进 。2014 年 华为 的 研发 工程 师 曾 发 表 了 论文 提出 了 一 种 3 级 结构 的 短 消息 对 话 系统 2。 


27 An Information Retrieval Approach to Short Text Conversation,Zongcheng Jia, Zhengdong Lu, 
Hang Li， 参 见 本 章 参 考 资料 [8]。 
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该 系统 从 社交 媒体 网 站 如 ( weibo.com 和 twitter.com 等 网 站 上 ) LADJE 
大 的 短 句子 ( weibo.com 用 户 仅 能 发 表 或 回复 长 度 小 于 140 个 字 的 短 消息 ) 应 答对 话 
信息 集合 (p,r)。 其 中 ，p 表 示 提 问 语句 ,7 表示 对 应 的 回答 语句 。 基于 检索 的 对 话 系 
统 将 从 庞大 的 对 话 信息 中 挑选 出 最 合适 回答 语句 返回 给 提问 者 。 


系统 结构 如 图 5-26 所 示 ， 共 由 三 大 模块 组 成 ， 步 又 如 下 : 


步骤 1 首先 使 用 归 一 化 词 频 向 量 ， 将 提问 短 消息 q(query) 与 数据 集 
(post-comment pairs) 中 的 提问 语句 p、 回 答 语句 r 的 分 别 进行 余弦 匹配 分 别 获取 10 个 
相似 度 最 高 的 对 话 信息 样本 。 另 外 ， 短 消息 gq 和 回答 语句 r 再 进行 一 次 增强 线性 匹配 获 
取 10 个 相似 度 最 高 的 对 话 信息 样本 。 获 取 30 个 候选 样本 (pi,7i)。 


步骤 2 ”利用 语言 模型 、 关 键 词 匹配 模型 预测 等 复杂 方法 获取 每 一 个 候选 样本 
(p, 7 与 提问 语句 4 的 匹配 (matching) 关 联 特 征 。 因 对 话 信息 集合 (p,7) 中 存在 多 个 回复 
消息 r 对 应 同一 个 原始 提问 语句 p 的 情况 。 因此 , 在 步骤 1 中 使 用 原始 提取 语句 检索 即 
可 针对 性 的 收集 正 、 负 样本 信息 。 语 言 模型 、 关 键 词 匹配 模型 可 据 此 进行 数据 训练 。 


步骤 3 利用 步骤 2 中 计算 获得 匹配 特征 ， 使 用 线性 函数 计算 提问 语句 4 与 候选 
样本 (p, 7) 间 的 相似 度 值 并 进行 排序 (ranking)。 最 后 ， 返 回 相似 度 最 高 的 值 。 排 序 算 
法 使 用 的 是 类 型 数量 为 2 数据 进行 训练 的 。 训 练 数据 的 类 型 设置 与 步骤 2 相同 。 


short text matched ranked 


lwen | dum posco pais pairs comments] pomes best 
[ response 
, online 
^ offi ne Y 


5-26 ”基于 检索 的 对 话机 器 人 系统 结构 


该 方法 所 呈现 的 处 理 结果 将 呈现 出 更 加 智能 的 效果 。 与 规则 系统 相 比较 , 检索 系 
统 的 回答 方式 完全 有 庞大 的 短 消息 数据 集 驱动 , 极 大 地 减少 了 规则 系统 中 规则 调整 的 
工作 量 。 但 这 种 方式 , 从 本 质 上 说 解决 的 依然 是 一 个 语言 检索 问题 。 算 法 并 没有 真正 
学 习 并 利用 语言 的 内 在 逻辑 关系 。 在 数据 集 和 相关 参数 保持 不 变 的 情况 下 , 反复 输入 
相同 的 语句 将 返回 完全 一 样 的 相同 结果 。 而 且 该 系统 结构 复杂 , 样本 维护 种 类 较 多 和 
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模型 的 训练 较为 分 散 ， 这 些 令 最 终 的 系统 调试 与 评估 十 分 繁琐 。 
3. 基于 生成 模型 


前 面 介 绍 的 循环 神经 网 络 RNN，LSTM 和 GRU, 为 我 们 处 理 不 定 长 时 序数 据 提 
供 了 基础 工具 , 可 以 很 方 便 地 应 用 到 5.2.3 节 中 的 oneto many, many to one 和 many to 
many(sync) 应 用 场景 。 对 于 异步 形式 的 many to many， 由 于 输入 和 输出 数据 规模 并 不 
一 致 ， 不 能 使 用 单一 循环 神经 网 络 解决 。 Seq2seq 方法 是 一 种 基于 Encoder-Decoder 
框架 和 循环 神经 网 络 的 面向 many to many 异步 形式 场景 的 解决 方案 。 


Encoder-Decoder 框架 ( 如 图 5-27 所 示 ) 包括 两 部 分 ， 第 一 部 分 将 输入 信息 通过 
Encoder 模块 编码 为 中 间 表示 特征 w; 第 二 部 分 使 用 Decoder 模块 将 中 间 特 征 C 解码 
获取 预测 结果 。 在 编码 和 解码 预测 的 过 程 就 是 自 循环 神经 网 络 的 使 用 过 程 。 特 别 的 ， 
在 解码 的 开始 时 会 输入 开始 预测 标记 特征 <go>， 当 预 测 结果 返回 结束 标记 <eos> 或 超 
过 语句 最 大 值 时 ， 预 测 结果 结束 。 


图 5-27 Encoder-Decoder 框架 
图 5-27 中 输入 1 = (A,B,C), 58:80 = (W, X, Y, Z). Encoder-Decoder 框架 中 ， 
Encoder 负责 将 输入 转化 为 内 部 编码 ; 
IntermediateCode — Encode(/) 
Decoder 负责 将 内 部 编码 解码 为 合适 的 输出 ; 
O = Decode(IntermediateCode) = Decode(Encode(7)) 


由 此 可 见 ，Seq2seq 方法 非常 适用 于 智能 对 话 问题 。 通过 收集 对 话 样 本 ， 将 提问 
语句 编码 为 中 间 特 征 , 令 回 复 结果 为 类 型 序列 标签 ， 进行 循环 网 络 的 模型 训练 即 可 直 
接 实 现 智能 对 话 模型 。 标 准 的 RNN 模型 能 够 通过 隐 含 层 的 状态 信息 提取 样本 序列 的 
相关 特征 。 而 LSTM 模型 具有 自 适应 记忆 、 遗 忘 功能 ， 在 样本 序列 的 训练 过 程 中 能 
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够 更 好 地 获取 特征 信息 。 

管 是 基于 规则 , 还 是 基于 检索 的 方案 , 都 将 只 返回 预先 定义 的 回复 内 容 。 而 基 | 
于 生成 模型 的 算法 , 可 以 根据 模型 训练 获取 的 语义 关联 信息 生成 全 新 的 未 曾 见 过 的 回 | 
复 。 | 
5.6.2 ”基于 seq2seq 的 对 话机 器 人 | 


下 面 重 点 介绍 如 何 基 于 Sequence to sequence 模型 搭建 基于 生成 模型 的 对 话机 器 
人 。 


1. 训练 数据 

对 于 端 对 端 训练 神经 会 话 模型 , 我 们 需要 类 似 机 器 翻译 平行 语 料 的 问答 对 。 一 般 
构建 对 话 系统 之 初 ,我 们 需要 从 网 络 中 收集 类 似 的 训练 语 料 。 比 如 : 电影 对 白 ， 问 答 
网 站 ， 社 交 网 站 数据 等 。 

这 里 以 华为 诺 亚 方舟 实验 室 公开 的 微 博 数据 为 例 ( 如 图 5-28 所 示 )， 微 博 数据 包 


括 用 户 所 发 出 的 微 博 (Posts ) 和 该 帖子 下 方 的 若干 用 户 评论 ( Comments )。 组 合 每 个 
帖子 和 评论 对 ， 以 Post-Comment 对 ， 作 为 问答 对 〈 问题 -回复 ) 数据 。 
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图 5-28 (HE 


将 问题 数据 存储 为 enquiry 文件 ， 可 以 看 到 其 中 一 些 经 过 分 词 的 例子 : 
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$ head -10 enquiry 

小 马 也 疯狂 ------ 地 位 之 争 。 

那些 年 ， 我 们 一 起 偷 看 过 的 电视 。 [REBT] 
北京 的 小 纯洁 们 ， 周 日 见 。 # 硬汉 摆 拍 清纯 照 # 
要 是 这 一 年 哭泣 的 理由 不 再 是 难过 而 是 感动 会 多 么 好 
对 于 国内 动漫 画作 者 引用 工笔 素材 的 一 些 个 人 意见 。 


同样 ， 可 以 看 到 部 分 回复 数据 的 例子 : 


$ head -10 answer 

王 大 姐 ， 打 字 细 心 一 点 

于 老师 不 给 劝 劝 架 么 告诉 他 们 再 挣 也 不 是 老大 
真 不 愧 是 这 么 走出 来 的 少年 .. ..…. 

喇 喇 大 神 的 左 脚 在 干什么 ， 看 着 小 纯洁 带 球 么 。 
我 已 经 快感 动 得 器 了 。 


问题 和 回复 数据 文件 逐 行 匹配 ， 得 到 问答 对 。 比 如 ， 


Q: 如 果 有 个 人 能 让 你 忘掉 过 去 ， 那 ta 很 可 能 就 是 你 的 未 来 。 
A: 关键 是 那 人 是 否 忘记 他 的 过 去 。 


对 原始 对 话 数据 ， 进 行 中 文 分 词 ， 转 化 成 词 ID, 并 分 拆 为 训练 集 和 验证 集 ， 代 
码 如 下 : 


def prepare datal(ldata dir, vocabulary size, train file-'train', 
dev file-'dev', use fmm tokenizer-False): 
"iMm 
prepare dialog data. all the data should be put in the data dir 
:Param data dir: 
:param train file: train file prefix. there should be two train-file 
prefix files. By default, you should name the enquiry 
file as train.enquiry, the answer file as train.answer. each line 
of these two file make a enquiry, answer pair. 
:param dev file: almost the same as train file, except that it is 
used to internal evaluate 
:Param vocabulary size: 
return: 
"un 
ttokenizer = fmm tokenizer if use fmm tokenizer else basic tokenizer 
f Create vocabularies of the appropriate sizes. 
vocab path = os.path.join(data dir, "vocab%d" 3 vocabulary 
size) 
create vocabulary(vocab path, data dir + '/test', vocabulary 
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size, 
tokenizer-ttokenizer) 


# Create token ids for the training data. 
enquiry train ids path = os.path.join(data dir, train file * ( 
".ids$d.enquiry" % vocabulary size)) 
answer train ids path = os.path.join(data dir, train file * ( 
".ids$d.answer" $ vocabulary size)) 
data to token ids(os.path.join(data dir, train file 十 
".enquiry"), 
enquiry train ids path, vocab path, ttokenizer) 
data to token ids(os.path.join(data dir, train file * ".answer"), 
answer train ids path, vocab path, ttokenizer) 


# Create token ids for the development data. 

enquiry dev ids path - os.path.join(data dir, dev file * ( 
".ids$d.enquiry" $ vocabulary size)) 

answer dev ids path - os.path.join(data dir, dev file * ( 
".ids$d.answer" $ vocabulary size)) 


data to token ids(os.path.join(data dir, dev file * 
".enquiry"), 

enquiry dev ids path, vocab path, ttokenizer) 

data to token ids (os.path.join(data dir, dev file * 
".answer"), 


answer dev ids path, vocab path, ttokenizer) 


return (enquiry train ids path, answer train ids path, 
enquiry dev ids path, answer dev ids path, 
vocab path) 


其 中 ， 主 要 逻辑 data to token ids 实现 从 文本 到 词 ID 系列 的 转换 过 程 ， 代码 如 
F: 


def sentence_to_token_ids (sentence, vocabulary, 
tokenizer, normalize digits-True): 
"""Convert a string to list of integers representing token-ids. 


For example, a sentence "I have a dog" may become tokenized into 
["I", "have", "a", "dog"] and with vocabulary ("I": 1, "have": 


"a": 4, "dog": 7") this function will return [1, 2, 4, 734 


Args: 
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Sentence: a string, the sentence to convert to token-ids. 
vocabulary: a dictionary mapping tokens to integers. 
tokenizer: a function to use to tokenize each sentence; 
if None, basic tokenizer will be used. 
normalize digits: Boolean; if true, all digits are replaced 
by Os. 


Returns: 
a list of integers, the token-ids for the sentence. 
"nn 
words = tokenizer(sentence) if tokenizer else basic tokenizer 
(sentence) 
if not normalize digits: 
return [vocabulary.get (w, UNK ID) for w in words] 
# Normalize digits by 0 before looking words up in the vocabulary. 
return [vocabulary.get (re.sub(_DIGIT RE, "O", w), UNK_ID) for w in 
words] 


def data to token ids(data path, target path, vocabulary path, 
tokenizer, normalize digits-True): 
"""Tokenize data file and turn into token-ids using given 
vocabulary file. 


This function loads data line-by-line from data path, calls the 
above 
Sentence to token ids, and saves the result to target path. See 
comment 
for sentence to token ids on the details of token-ids format. 


Args: 
data path: path to the data file in one-sentence-per-line 
format. 
target path: path where the file with token-ids will be created. 
vocabulary path: path to the vocabulary file. 
tokenizer: a function to use to tokenize each sentence; 
if None, basic tokenizer will be used. 
normalize digits: Boolean; if true, all digits are replaced 
by 0s. 
if gfile.Exists(target path): 
sys.stderr.write ( 
"target path $s already exist! we will use the existed 
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one.\n' $ target path) 


else: 
print("Tokenizing data in $s" $ data path) 
vocab, _ = initialize vocabulary(vocabulary path) 


with gfile.GFile(data path, mode-"r") as data file: 
with gfile.GFile(target path, mode-"w") as tokens file: 
counter = 0 
for line in data file: 
counter += 1 i 
if counter $ 100000 -- 
print(" tokenizing line $d" $ counter) 
token ids = sentence to token ids (line, vocab, 
tokenizer, 
normalize digits) 
tokens file.write( 
" ".join([str(tok) for tok in token ids]) + "\n") 


2. 会 话 模型 实现 


会 话 模型 基于 TensorFlow 中 的 Seq2SeqModel。 利 用 下 面 的 create model 方法 中 
可 以 直接 加 载 事先 训练 好 的 会 话 模型 ， 代 码 如 下 。 


def create model(session, forward only): 
"""Create conversation model and initialize or load parameters 
in session.""" 
model = seq2seq_model .Seq2SeqModel ( 
FLAGS.vocab size, FLAGS.vocab_size, _buckets, 
FLAGS.size, FLAGS.num_layers, FLAGS.max gradient norm, 
FLAGS.batch size, 
FLAGS.learning rate, FLAGS.learning rate decay factor, 
use lstm-FLAGS.use lstm, 
forward only-forward only) 
ckpt = tf.train.get checkpoint state(FLAGS.train dir) 
if ckpt and gfile.Exists(ckpt.model checkpoint path): 
print ("Reading model parameters from %s" $ ckpt.model checkpoint. 
path) 
model.saver.restore(session, ckpt.model checkpoint path) 
else: 
print("Created model with fresh parameters.") 
session.run(tf.initialize all variables()) 
return model 
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会 话 模型 训练 


会 话 模型 的 训练 过 程 并 不 复杂 ， 加 载 训练 语 料 之 后 ， 直 接 调用 Seq2SeqModel 训 
练 流程 ， 代 码 如 下 。 


def train(): 
# Prepare conversation data. 
print ("Preparing conversation data in $s" $ FLAGS.data . dir) 
enquiry train, answer | train, enquiry dev, answer dev, 
data utils.prepare | data ( 
FLAGS.data_dir, FLAGS.vocab | size) 
vocab_path = os.path. join(FLAGS.data_dir, "vocab$d" % 
FLAGS.vocab size) 
vocab, rev_vocab = data utils.initialize vocabulary (vocab path) 


with tf.Session() as sess: 
# Create model. 
print ( 
"Creating %d layers of %d units." % (FLAGS.num_layers, 
FLAGS. size) ) 
model = create model (sess, False) 
# Read data into buckets and compute their sizes. 
print ("Reading development and training data (limit: $d)." 
% FLAGS.max train | data size) 
dev set = read data (enquiry dev, answer dev) 
train set = read data(enquiry train, answer train, 
FLAGS.max train data size) 


train bucket sizes  - [len(train set[b]) for b in 
xrange (len(_buckets)) ] 

train total size = float (sum(train | bucket sizes)) 

* A bucket scale is a list of increasing numbers from 0 to 
1 that we'll use 

# to select a bucket. Length of [scale[i], scale[i+1]] is 
proportional to 

* the size if i-th training bucket, as used later. 

train buckets scale - [sum(train bucket sizes[:i + 1]) / 
train total size 

for i in xrange(len(train bucket sizes))] 


f This is the training loop. 
print ("Start training ...") 

Step time, loss = 0.0, 0.0 

'current step - 0 
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previous losses - [] 
while True: 
* Choose a bucket according to data distribution. We pick 
a random number 
# in [0, 1] and use the corresponding interval in 
train buckets scale. 
random number 01 = np.random.random sample () 
bucket id - min((i for i in 
xrange(len(train buckets scale)) 
if train buckets scale[i] > 
random number 01]) 
# Get a batch and make a step. 
Start time = time.time() 
encoder inputs, decoder inputs, target weights - 
model.get batch( 
train set, bucket id) 
_, Step loss, _ = model.step(sess, encoder inputs, 
decoder inputs, 
target weights, bucket id, 
False) 
step time += (time.time() - start time) / FLAGS.steps_ 
per checkpoint 
loss += step loss / FLAGS.steps per checkpoint 
current step += 1 
# Once in a while, we save checkpoint, print statistics, 
and run evals. 1 
if current step $ FLAGS.steps per checkpoint -- 0: 
# Log 
log head = 'current step: %s' % model.global step. 
eval() 
# Print statistics for the previous epoch. 
perplexity = math.exp(loss) if loss < 300 else float('inf') 
print ( 
"global step $d learning rate $.4f step-time %.2f 





perplexity " 
"€.2f" * { 
model.global step.eval(), model.learning rate.eval(), 
step time, perplexity)) 
4 Decrease learning rate if no improvement was seen 
over last 3 times. 
if len(previous losses) > 2 and loss » max( 
previous losses[-3:]1): 
sess.run(model.learning rate decay op) 
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Previous losses.append(loss) 
* Save checkpoint and zero timer and loss. 
checkpoint path = os.path.join(FLAGS.train dir, 
"conversation.ckpt") 
model.saver.save (sess, Checkpoint path, 
global step-model.global step) 
Step time, loss - 0.0, 0.0 
# Run evals on development set and print their 
perplexity. 
for bucket id in xrange (len( buckets)): 
encoder inputs, decoder inputs, target weights - 
model.get batch( 
dev set, bucket id) 
—’ eval_loss, _=model.step(sess, encoder inputs, 
decoder inputs, 
target weights, 
bucket id, 
True) 
eval ppx - math.exp( 
eval loss) if eval loss < 300 else float('inf') 
print(" eval: bucket %d perplexity $.2f" $ ( 
bucket id, eval _PPx) ) 
# Log the answer of validation set: use 20 enquiries 
from development set 
for bucket group in dev set: 
* decode 4 questions in each bucket 
for pair in bucket | group[:4]: 
token ids = pair[0] 
log info = '$s, enquiry: $s' $ (1og head, "".join( 
[rev vocab[inp] for inp in token | ids])) 
* Which bucket does it belong to? 
bucket id-min([b for bin xrange(len( buckets)) 
if _buckets[b] [0] > 
len(token ids)]) 
# Get a l-element batch to feed the sentence 
to the model. 
encoder inputs, decoder inputs, target weights 
7 model.get batch( 
(bucket id: [(token | ids, [])]}, bucket id) 
# Get output logits for the sentence. 
—r — Output logits = model.step (sess, encoder. 
inputs, 
decoder inputs, 
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target weights, 
bucket id, True) 

# This is a greedy decoder - outputs are just 
argmaxes of output logits. 

* Batch size - 64, we select the first output, 
logit 

outputs = [int(np.argmax(logit, axis-1)[0]) for logit in 
output logits] 

# If there is an EOS symbol in outputs, cut them 

at that point. 


# if data utils.EOS ID in outputs: 


# outputs = 
outputs [:outputs. index (data_utils.EOS_ID)] 
log info = '%s, answer: %s' % (log_info, 


-join([rev vocab[output] for output in outputs])) 
print(log info) 
# LOGGER. info(log_info) 
sys.stdout. flush () 


需要 注意 的 是 ,加 载 训练 数据 部 分 , 从 训练 效率 角度 考虑 ,把 不 同 长 度 问答 数据 
进行 分 桶 处 理 ， 代 码 如 下 : 


# We use a number of buckets and pad to the closest one for efficiency. 
# See seq2seq model.Seq2SeqModel for details of how they work. 
.buckets - [(5, 10), (10, 15), (20, 25), (40, 50)] 


def read data(source path, target path, max size-None): 
"""Read data from source and target files and put into buckets. 
Args: 
source path: path to the files with token-ids for the source 
language. 
target path: path to the file with token-ids for the target 
language; 
it must be aligned with the source file: n-th line contains the 
desired 
output for n-th line from the source path. 
max size: maximum number of lines to read, all other will be 
ignored; 
if 0 or None, data files will be read completely (no limit). 
Returns: 
data set: a list of length len( buckets); data set[n] contains 
a list of 
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(source, target) pairs read from the provided data files that 
fit 
into the n-th bucket, i.e., such that len(source) < buckets [n] [0] 
and 
len(target) « -.buckets[n][1]; source and target are lists of 
token-ids. 
"nn 
data set = [[] for . in buckets] 
with gfile.GFile (source | path, mode="r") as Source file: 
with gfile. GFile (target | path, mode-"r") as target file: 
Source, target = source file.readline(), target file.readline() 
counter = 0 
while source and target and (not max size or counter < max | size): 
counter += 1 
if counter % 1000 == 0: 
Print(" reading data line $a" $ counter) 
sys.stdout.flush() 
source_ids {int (x) for x in source.split() ] 
target_ids (int (x) for x in target.split()] 
target ids.append(tokenizer.EOS | ID) 
for bucket id, (source size, target size) in enumerate( 
.buckets): 
if len(source ids) « Source size and len( 
target ids) < target size: 
data set[bucket id].append([source ids, 


target ids]) 
break 
Source, target - source file.readline(), target file.readline() 
return data set 


， 会话 模 型 训练 效果 


基于 训练 好 的 会 话 模型 , 调用 Seq2SeqModel 的 decode 过 程 , 可 以 对 任意 新 输入 
的 问题 ， 自 动 生成 新 的 回复 ， 代 码 如 下 ， 


class Chatbot(): 


answer an enquiry using trained seq2seq model 


def — init (self, model dir): 
# Create model and load parameters. 
self.session - tf.InteractiveSession() 
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self.model = self.create model(self.session, model dir, 
True) 


self.model.batch size = 1 
* Load vocabularies. 





vocab path = os.path.join(FLAGS.data dir, “vocab%d" 多 | 
FLAGS .vocab size) | 
self.vocab, self.rev_vocab e Í 


data_utils.initialize_vocabulary (vocab_path) | 





def create model(self, session, model dir, forward only): 
"""Create conversation model and initialize or load 
parameters in session.""" | 
model = seq2seq model.Seq2SeqModel( | 

FLAGS.vocab_size, FLAGS.vocab_size, _buckets, 

FLAGS.size, FLAGS.num_layers, FLAGS.max_gradient_norm, 
FLAGS.batch size, | 
FLAGS.learning rate, FLAGS.learning rate decay factor, 
use lstm-FLAGS.use lstm, | 
forward only-forward only) 


ckpt = tf.train.get checkpoint state (model dir) 
if ckpt and tf.train.checkpoint exists(ckpt.model checkpoint path): 
.LOGGER.info("Reading model parameters from %s" 多 
ckpt.model_checkpoint_path) 
model.saver.restore(session, ckpt.model_checkpoint_path) 
_LOGGER.info("Read model parameter succeed!") 
else: 
raise ValueError ( 
"Failed to find legal model checkpoint files in $s" % 
model dir) 
return model 


def generate answer(self, enquiry): 
# Get token-ids for the input sentence. 
token ids = data_utils.sentence_to_token_ids (enquiry, 
self.vocab, tokenizer. fmm_tokenizer) 
if len(token ids) == 
_ LOGGER. error (‘lens of token ids of sentence %s is 0' $ 
enquiry) 
# Which bucket does it belong to? 
bucket id = min([b for b in xrange (len (_buckets) ) 
if _buckets[b][0] > len(token ids)]) 
# Get a l-element batch to feed the sentence to the model. 
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encoder inputs, decoder inputs, target weights = self.model. 


get batch( 
(bucket id: [(token ids, [])]}, bucket id) 
* Get output logits for the sentence. 
+ _: Output logits =  self.model.step(self.session, 


encoder inputs, 
decoder inputs, 
target weights, bucket id, 
True) 
# This is a greedy decoder - outputs are just argmaxes of 
output logits. 
outputs = [int (np.argmax (logit, axis=1) ) for logit 
output_logits] 
# If there is an EOS symbol in outputs, cut them at that point. 
if tokenizer.EOS ID in outputs: 
outputs = outputs [:outputs. index (tokenizer.EOS ID)] 


in 


# Print out response sentence corresponding to outputs. 
answer = " ".join([self.rev vocab[output] for output in outputs]) 
if tokenizer. UNK in answer: 
answer = random.choice(UNK TOKEN REPLACEMENT) 
answer = trim(answer) 
return answer 


def close(self): 
self.session.close() 


if name == " main ": 


m = Chatbot (SEQ2SEQ MODEL DIR + '/train/') 
response = m.generate answer (u' 我 知道 你 不 知道 我 知道 你 不 知道 我 说 的 是 
HARE") 


print response 
效果 不 错 的 自动 回复 例子 : 


Q: 北 鼻 ， 情 人 节 快 乐 ! 来 ， 嘴 一 个 。 
A(Bot): 好 可 爱 的 小 盆 友 。 


Q:《 财 经 郎 眼 》 上 周 蝉联 优酷 播放 榜 第 一 名 
A (Bot) : 我 也 在 看 ， 很 期 待 ! 


Q: 还 记得 你 看 的 第 一 场 演唱 会 是 谁 的 吗 ? 
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A(Bot): 当然 是 周杰伦 ! 


然而 ， 也 有 一 些 质量 不 理想 的 回复 例子 : 


Q: AHA ， 表 面 装 的 对 你 很 好 ， 实 际 呢 ? [5] 
A(Bot) :有 些 人 ， 有 些 人 ， 有 些 人 ， 有 些 人 ， 有 些 人 。 





Q: 知识 就 是 力量 。 ( 这 得 看 到 何 年 何 月 啊 ) 
A(Bot) :这 就 是 传说 中 的 " " 字 " on 的 意思 


Q: 艾 玛 ， 少 女 心 的 颜色 ... .… 
A (Bot) :我 也 是 ， 我 是 颜色 颜色 


5.7 小 结 


循环 神经 网 络 RNN 是 目前 在 处 理 序列 数据 的 优秀 模型 ， 在 处 理 自然 语言 处 理 领 
域 的 文本 理解 、 文 本 生成 等 问题 上 的 应 用 已 十 分 广泛 。 理论 上 , 循环 神经 网 络 已 经 被 
证 明 是 图 灵 完 备 ( Turing-Complete ) 的 ，RNN 有 潜力 可 以 模拟 任何 程序 。 虽然 现实 
和 理论 仍然 存在 巨大 差距 ， 但 在 实践 中 ，RNN 在 不 同 问题 上 的 应 用 还 是 展现 了 非常 
多 出 人 意料 的 效果 ， 并 且 LSTM 等 技术 还 在 持续 改进 RNN 的 效果 。 








从 另 一 个 维度 ,基于 循环 神经 网 络 的 sequence to sequence 模型 在 神经 会 话 模型 、 

机 器 翻译 等 领域 都 相继 取得 了 突破 性 的 成 果 。 尤其 在 机 器 翻译 领域 , 从 最 初 的 基于 规 
则 的 机 器 翻译 系统 , 到 基于 统计 的 机 器 翻译 系统 ( SMT, Statistical Machine Translation ), 
再 到 神经 网 络 机 器 翻译 (NMT, Neural machine translation), Éi £l 2016 £F. Google 推 
出 的 集大成 的 GNMT ( Google's Neural Machine Translation System ), 机 器 翻译 的 质量 
有 了 大 幅度 的 提高 。 从 结构 上 讲 ，GNMT 仍然 遵循 sequence to sequence 框架 ， 只 不 
过 在 此 基础 上 融入 了 诸如 注意 力 模型 、 残 差 连接 、 多 层 LSTM 网 络 、 迁 移 学 习 等 等 
一 系列 技术 ， 才 成 就 了 今天 Google Translate 这 一 逆 天 的 产品 。 


相信 在 更 多 应 用 场景 中 ，RNN 和 Sequence to sequence 模型 还 将 继续 给 我 们 带 来 
更 多 惊喜 。 
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CNN+LSTM 看 图 说 话 


作为 人 工 神经 网 络 发 展 的 里 程 碑 ，CNN 与 LSTM 分 别 是 在 计算 机 图 像 识 别 与 自 
然 语 言 处 理 这 两 个 相对 独立 的 领域 诞生 的 。 但 这 并 不 意味 着 CNN 与 LSTM 的 应 用 没 
有 丝毫 联系 。CNN 的 特点 是 通过 卷 积 操作 共享 网 络 层 参 数 ， 在 减少 网 络 参数 数量 航 
同时 ， 能 够 有 效 提 取 图 像 局 部 、 甚 至 是 整体 的 特征 信息 。LSTM 是 一 种 拥有 长 、 短 期 
自 适应 记忆 遗忘 能 力 的 循环 神经 网 络 。 与 非 循环 神经 网 络 的 最 大 区 别 在 于 网 络 输入 、 
输出 接口 上 的 差异 。 一 般 非 循环 神经 网 络 结构 ( 如 CNN 或 全 连接 网 络 ) 只 能 提取 出 
单个 样本 信息 的 内 在 关联 信息 ， 输 出 结果 仅 与 当前 输入 的 样本 信息 相关 ， 而 LSTM 
则 可 以 训练 获取 存在 于 样本 序列 之 间 的 关联 信息 , 若 将 同一 条 样本 输入 同一 个 LSTM 
网 络 两 次 ， 输 出 结果 可 能 是 不 同 的 。 


RE CNN 和 LSTM 早先 被 应 用 于 不 同 的 领域 , 但 这 两 者 的 结合 使 用 已 在 图 像 检 
测 和 图 像 摘要 问题 中 得 到 了 成 功 的 应 用 。 图像 检 测 问题 已 经 在 第 4 章 有 过 介绍 , 主要 
解决 的 是 定位 图 像 中 所 有 目标 物体 。 图 6-1 左 图 显示 的 是 图 像 检测 问题 中 的 人 脸 检 测 
结果 示意 图 。 图 像 摘要 问题 是 指 对 于 给 定 的 图 片 ， 计 算 机 能 识别 其 中 的 内 容 , 并且 根 
据 内 容 的 语义 生成 一 段 能 够 描述 图 片 的 文字 。 图 6-1 右 图 显示 了 图 像 摘要 算法 自动 生 
成 描述 图 像 语句 的 例子 。 
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图 6-1 左 图 是 人 脸 检测 示例 图 。 左 图 中 算法 能 够 自动 找 出 人 脸 区 域 并 用 方 框 标 记 。 右 图 显示 了 图 像 摘要 
算法 示例 。 算 法 将 根据 输入 图 片 自动 产生 描述 语句 : A young girl asleep on the sofa cuddling a stuffed bear( 一 
个 小 女孩 抱 着 一 只 毛 绒 玩具 能 在 沙发 上 睡觉)。 


基于 深度 学 习 的 图 像 摘要 算法 由 CNN 和 LSTM 两 部 分 组 成 。 其 中 ，CNN 负责 
对 图 像 特征 进行 提取 ， 而 LSTM 负责 实现 图 像 与 文字 特征 的 转换 翻译 。CNN 提取 的 
图 像 信息 包括 目标 图 像 的 类 型 、 颜 色 、 位 置 、 类 型 等 。 在 此 基础 上 ，LSTM 可 以 根据 
输入 的 图 像 特征 转换 单词 信息 并 同时 更 新 基于 图 像 特征 的 状态 信息 。 


本 章 以 图 像 检测 和 图 像 摘要 这 两 个 问题 为 例 , 讲述 使 用 TensorFlow 处 理 CNN 与 
LSTM 相 结 合 的 模型 及 其 应 用 。6.1 节 介 绍 了 CNN 与 LSTM 相 结 合 的 ReInspect 算 法， 
并 以 基于 TensorFlow 的 开源 项 目 TensorBox” 为 基础 ， 介绍 Relnspect 算法 的 实现 。 6.2 
节 介 绍 用 于 解决 图 像 摘 要 问题 的 CNN+LSTM 网 络 模型 ， 并 进一步 说 明 CNN+LSTM 
的 结合 特性 。 另 外 ,此 例 中 还 特别 介绍 了 TensorFlow 中 使 用 TFRecord 文件 格式 训练 
较 大 数据 集 的 一 般 步骤 。 


6.1 CNN+LSTM 网 络 模型 与 图 像 检 测 问题 


在 前 文 第 4 章 对 AlexNet、VGGNets、GoogLeNet、ResNets 等 一 系列 经 典 CNN 


28 TensorBox 的 GitHub 网 址 : https://github.com/ TensorBox /TensorBox 。 本 章 所 介绍 的 
TensorBox 基于 TensorFlow 0.12 版 本 。 因 为 TensorFlow 仍 在 不 断 地 推出 新 的 版 本 ， 新 的 函 
数 接口 可 能 会 不 同 于 原先 的 接口 函数 。 对 此 ，TensorFlow 源码 包 提供 了 代码 升级 脚本 
(tensorflow\tools\compatibility\tf_upgrade.py)， 它 可 实现 新 版 本 接口 函数 的 自动 升级 。 只 须 
运行 python tf upgrade.py--intree < 源码 文件 夹 顶级 目录 > -outtree < 新 生成 的 代码 存放 目录 > 
即 可 。 升 级 程序 对 于 一 些 伐 套 的 参数 赋值 操作 可 能 会 更 新 失败 ， 此 时 只 须 调试 更 改 即 可 。 


h 184 
ww ai bbt. com [1[1 B U D UO U 


6 CNN+LSTM 看 图 说 话 


模型 的 介绍 中 曾 提 到 它们 一 再 刷新 图 像 分 类 问题 的 纪录 。 与 图 像 分 类 问题 相 比较 , 图 
像 检测 除了 需要 判断 图 像 内 容 的 类 型 之 外 ， 还 需要 标定 图 像 中 所 有 目标 所 在 的 位 置 。 
实际 上 ， 基 于 CNN 的 图 像 检 测算 法 本 质 上 依旧 是 解决 一 个 目标 类 别 的 分 类 与 位 置 从 
标的 回归 预测 问题 。 与 基于 深度 学 习 的 分 类 算法 不 同 , 检测 算法 在 训练 处 理 过 程 中 都 
会 使 用 深度 网 络 中 的 某 个 卷 积 层 的 输出 结果 来 表示 图 像 的 网 格 化 特征 提取 结果 。 图 像 
检测 算法 在 计算 损失 函数 时 ,输入 到 损失 函数 中 的 基本 样本 特征 是 网 格子 图 特征 。 类 
似 的 , 在 检测 算法 的 预测 过 程 中 , 对 目标 类 型 判断 和 位 置 预测 的 基本 样本 特征 同样 也 
是 网 格子 图 特征 。 


这 里 介绍 的 CNN+LSTM 网 络 结构 主要 用 以 解决 速 挡 目标 的 图 像 检测 问题 。 
OverFeat 算法 是 使 用 CNN 模型 处 理 图 像 检测 问题 的 经 典 算法 , 曾 在 ILSVRC 2013 中 
获得 了 图 像 检测 问题 的 冠军 , 但 在 目标 物体 存在 互相 遮挡 的 情况 下 , 识别 效果 并 不 好 。 
Relnspect 算法 是 在 OverFeat 算法 的 基础 上 使 用 LSTM 网 络 优化 了 遮挡 目标 的 检测 问 
题 。 本 节 将 重点 讲述 ReInspect 算法 及 其 实现 。 


6.1.1 OverFeat 和 Faster R-CNN 图 像 检 测算 法 介绍 


通过 第 4 章 的 介绍 可 以 知道 , 深度 卷 积 网 络 利用 多 层 卷 积 结构 ,可 以 从 图 像 中 提 
取出 物体 的 抽象 特征 。 CNN 所 提取 的 特征 图 是 大 小 为 W x H x C 的 三 维 数据 , 其 中 w 
表示 图 像 的 宽度 , H 表示 高 度 , C 表示 特征 通道 数 。 特 征 图 的 网 格 对 应 尺寸 为 1 x 1 x Co 
以 VGGNets 或 GoogLeNet AGI, 特征 图 中 的 每 一 个 元 素 都 是 由 原始 图 像 对 应 位 置 的 
子 图 计算 得 出 的 。 网 格 对 应 的 原始 子 图 计算 区 域 称 为 感知 域 , 同一 网 络 中 层次 越 深 的 
卷 积 操作 所 得 的 特征 图 所 对 应 的 感知 域 越 大 , 越 趋向 于 目标 物体 的 整体 特征 。 一 般 来 
说 ， 检 测 物体 的 大 小 应 小 于 感知 域 的 网 格 大 小 。 


OverFeat 是 使 用 CNN 来 解决 图 像 检测 问题 的 著名 算法 ， 诞 生 自 纽约 大 学 著名 教 
授 Yann LeCun 所 领导 的 实验 室 , 并 曾 获 得 ILSVRC2013 挑战 赛 图 像 检测 问题 的 冠军 。 
该 算法 对 应 的 原始 模型 结构 与 VGGNets 网 络 类 似 ， 它 们 都 是 由 卷 积 层 、 池 化 层 、 激 
活 层 、 全 连接 层 构 成 的 类 似 卷 积 网 络 模型 。OverFeat 算法 的 最 大 贡献 在 于 提出 使 用 深 
度 卷 积 网 络 模型 一 次 完成 分 类 、 定 位 和 检测 三 个 计算 机 视觉 任务 。 该 算法 利用 深度 卷 
积 网 络 返 回 的 卷 积 特征 图 实现 图 像 网 格 的 自动 化 分 类 的 同时 自动 提取 特征 ,最 终 以 图 
像 网 格 为 样本 判断 目标 类 别 以 及 预测 目标 相对 于 网 格 中 心 点 的 位 置 。 
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Faster R-CNN ( Regions with CNN features ) 算法 29 同 样 是 知名 度 较 高 的 深度 卷 积 
神经 网 络 图 像 检 测算 法 。 该 方法 是 2015 年 COCO 图 像 检测 竞赛 的 基准 比较 算法 。 与 
OverFeat 算法 类 似 ， 该 方法 同样 使 用 CNN 生成 卷 积 网 格 特征 图 ， 然 后 在 扫描 窗口 中 
使 用 多 个 不 同 尺度 不同 长 宽 比 的 锚 点 子 窗口 从 卷 积 特征 图 中 使 用 全 连接 层 提取 特征 
用 于 类 别 分 类 和 位 置 预 测 。 最后, 基于 全 连接 特征 的 两 个 线性 模型 分 别 用 于 实现 类 别 
分 类 和 位 置 预测 。Faster R-CNN 的 多 尺度 检测 示意 图 如 图 6-2 所 示 。 这 里 强调 的 是 ， 
与 OverFeat 算法 相 比 ， 而 Faster R-CNN 算法 使 用 了 多 个 锚 点 的 子 窗口 提取 卷 积 网 格 
特征 。 当 获取 深度 CNN 网 格 特征 后 ,Faster R-CNN 使 用 默认 大 小 为 3 x 3 的 扫描 窗口 
获取 卷 积 网 格 特征 子 图 。 然 后 , 将 卷 积 网 格 特征 子 图 的 中 心 点 与 锚 点 子 窗口 对 齐 , 利 
用 卷 积 网 格 特征 子 图 插值 生成 不 同 尺寸 .长 宽 比 的 锚 点 窗口 大 小 的 卷 积 网 格 特征 子 图 。 
接着 ,对 于 不 同 的 锚 点 子 窗口 插值 特征 分 别 使 用 全 连接 层 进一步 将 卷 积 特征 统一 转换 
为 512 维 的 特征 。 最 后 ， 使 用 全 连接 线性 分 类 器 判定 目标 类 别 以 及 预测 位 置信 息 。 

在 OverFeat 算法 中 ， 仅 对 单个 网 格 产生 的 卷 积 特征 使 用 分 类 器 判断 目标 类 别 以 
及 预测 位 置信 息 。 而 Faster R-CNN 算法 则 使 用 多 尺度 的 锚 点 窗口 融合 网 格 卷 积 特征 
检测 不 同 尺度 与 长 宽 比 的 图 像 目标 ， 如 图 6-2 所 示 。 一 般 而 言 ，Faster R-CNN 算法 的 
整体 性 能 要 优 于 OverFeat 算法 。 


cls layer X í reg layer 


intermediate layer 一 一 


Nx N 
NS i 





\ Tov Tae 


图 6-2 Faster R-CNN 算法 中 的 多 尺度 检测 示意 图 


29 论文 原著 为 本 章 参考 资料 [15] GitHub 上 一 个 开源 实现 为 : https://github.com/ 
ShaoqingRen/faster renno 
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然而 ， 无 论 是 OverFeat 算法 又 或 是 Faster R-CNN 算法 ， 它 们 最 后 都 会 对 目标 的 
检测 结果 的 置信 度 进行 排序 , 通过 两 两 比较 检测 结果 的 重 益 面积 和 回信 度 值 , 移 除 掉 
多 余 的 检测 结果 。 这 种 后 处 理 方式 在 待 检测 目标 结果 的 重 秋 区域 非常 小 时 是 非常 有 效 
的 。 此 时 ,即便 检测 算法 在 同一 个 目标 区 域 返回 了 多 个 目标 结果 ,也 会 根据 它们 的 重 
得 面积 而 将 其 移 除 。 而 当 检测 目标 存在 遮挡 时 , 这 种 处 理 方式 极 可 能 会 移 除 掉 被 遮挡 
目标 。 若 调整 重 针 面积 判断 参数 ， 则 又 可 能 出 现 大 量 的 重复 检测 结果 。 这 就 是 遮挡 目 
标 检测 问题 。 


6.1.2. 遮挡 目标 图 像 检测 方法 


在 OverFeat 算 法 的 基础 上 使 用 LSTM 网 络 能 够 极 大 地 改进 遮挡 目标 的 检测 效果 。 
在 使 用 了 LSTM 神经 网 络 后 ， 一 个 网 格 卷 积 特征 能 够 被 复 用 ， 并 产生 多 个 序列 特征 
以 表征 遮挡 图 像 目标 的 检测 结果 。 在 算法 实现 方面 ,TensorBox 是 一 种 基于 TensorFlow 
的 、 可 训练 的 图 像 检测 识别 框架 ， 其 中 实现 的 Relnspect 算法 就 是 一 种 基于 CNN 与 
LSTM 相 结 合 的 遮挡 目标 检测 算法 。 





TensorBox 内 部 同时 实现 了 OverFeat 算法 与 ReInspect 算法 。 它 们 的 实现 都 使 用 
GoogLeNet 网 络 结构 对 图 像 信息 划分 网 格 进行 编码 , 然后 以 网 格 卷 积 特征 为 基本 单元 
预测 网 格 卷 积 感知 域内 的 目标 及 其 位 置信 息 。 


在 具体 实现 中 ，ReInspect 算法 和 OverFeat 算法 的 不 同 之 处 还 在 于 是 否 采用 了 
LSTM 神经 网 络 和 对 应 的 损失 函数 的 预 处 理 操作 。 因 为 ReInspect 算法 采用 LSTM 网 
络 结构 对 同一 网 格 生成 序列 特征 表征 遮挡 目标 , 这 些 特征 序列 的 对 应 样本 需要 根据 训 
练 时 的 预测 结果 与 真 值 进行 匹配 并 赋值 ， 以 便 计 算 损 失 函 数 。 例 如 ， 网 格 产生 的 m 
个 特征 序列 ， 对 应 的 原始 图 像 标 记 中 有 个 目标 真 值 。 在 训练 过 程 中 , m 个 样本 序列 
对 应 的 目标 类 型 将 根据 m 个 样本 的 预测 结果 与 n 个 目标 真 值 进行 相似 匹配 产生 的 。 
匹配 的 最 大 数量 为 min(m,n)， 而 没有 匹配 的 特征 序列 则 标记 为 负 样 本 类 型 ， 对 应 的 
坐标 位 置 填 0。 另 外 ，ReInspect 算法 还 采用 了 一 种 称 为 “缝合 (stitch )” 的 检测 结果 
后 处 理 方法 。 缝合 后 处 理 有 两 大 特点 , 一 个 特点 是 同一 网 格 产 生 的 外 包 和 矩形 检测 结果 
不 会 进行 比较 移 除 , 另 一 特点 是 单 次 终 合 操作 中 , 每 一 个 检测 结果 最 多 只 会 移 除 一 个 
重合 检 测 结果 。 这 种 处 理 能 够 确保 同一 网 格 卷 积 特征 产生 的 重合 目标 不 会 被 认为 是 重 
复 检测 而 被 错误 地 移 除 。 显然 ， 当 网 格 产 生 的 特征 序列 长 度 为 1 时, 缝合 后 处 理 操作 


187 4 
ww ai bbt. com D0O0000O 


T 深度 学 习 原 理 与 TensorFlow 实践 


也 就 是 经 典 的 重复 检测 目标 移 除 后 处 理 算法 。 


由 于 Relnspect 算法 和 OverFeat 算法 在 整体 流程 上 是 基本 一 致 的 ， 故 在 基于 
TensorBox 的 内 部 实现 中 ， 两 种 算法 仅 依靠 参数 设置 来 区 分 。 从 实现 的 角度 上 来 看 ， 
OverFeat 算法 是 ReInspect 算法 的 简化 版 本 。 如 表 6-1 所 示 ， ReInspect 算法 除了 高 层 
网 络 结构 和 损失 函数 预 处 理 方法 与 OverFeat 不 同 外 ， 其 他 步骤 这 两 者 的 实现 是 相同 
的 。 因 此 ， 在 不 引起 混淆 的 情况 下 ， 本 文 的 后 续 算法 描述 内 容 将 以 ReInspect 算法 为 
主 。 下 一 节 将 对 各 实现 组 成 部 分 逐个 详细 说 明 。 


表 6-1 Relnspect 算法 与 OverFeat 算法 在 TensorBox 内 部 实现 中 的 异同 













Relnspect OverFeat 
将 图 像 划分 为 指定 的 网 格 大 小 , 并 以 此 为 单位 对 目 
标 进行 预测 
使 用 已 训练 好 的 GoogLeNet 网 络 对 图 像 进行 特征 
编码 。 最 高 层 网 络 输出 的 网 格 大 小 与 真 值 网 格 化 的 





训练 数据 预 处 理 










GoogLeNet 网 格 图 像 同 左 















与 感 
训练 ABAR 尺寸 一 致 
过 程 | LSTM 高 层 网 络 结 对 编码 的 网 格 特征 使 用 LSTM 网 络 生成 高 维特 征 | 无 此 操作 


将 特征 序列 的 预测 结果 与 真 值 进行 匹配 并 赋予 序 
列 样本 类 型 
使 用 检测 结果 位 置信 息 和 置信 度 信息 计算 监 体 损 
KBB 






无 此 操作 






损失 函数 预 处 理 操作 


损失 函数 


检测 后 处 理 







预测 
过 程 





使 用 全 局 匹配 算法 移 除 不 同 网 格 产生 的 宛 余 检测 
结果 






根据 检测 置信 度 , B 
除 重 次 检测 结果 







6.1.3 Relnspect 算法 实现 及 模块 说 明 


在 使 用 TensorBox 前 需要 首先 对 其 C++ 实现 的 模块 进行 编译 。 若 仅 使 用 OverFeat 
算法 , 则 只 需要 编译 “检测 后 处 理 ” 模块 。 进 入 TensorBox 项 目 所 在 目录 , 并 在 Linux 
终端 运行 以 下 make 命令 即 可 : 





$ cd utils && make 


若 仅 使 用 ReInspect 算法 则 还 需要 编译 “检测 结果 预 处 理 ” 模 块 。 此 时 需要 将 代 
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码 中 的 hungarian 模块 完整 地 编译 为 动态 链接 库 ; 
$ cd utils && make&& make hungarian 


在 准备 完 可 运行 程序 后 ， 还 需要 准备 训练 、 验 证 和 测试 数据 。 运行 源码 目录 下 的 
Linux 的 脚本 文件 download_data.sh ,将 下 载 TensorFlow 提 供 的 GoogLeNet 模 型 参数 、 
基于 OverFeat 算法 的 人 脸 检测 模型 以 及 人 脸 检测 训练 数据 集 。 另 外 ，TensorBox 使 用 
json 格式 的 样本 标记 格式 。 还 可 运行 源码 文件 make_json.py， 对 指定 文件 夹 内 的 图 像 
进行 真 值 标记 并 保存 为 json 格式 。 训 练 指定 数据 集 的 目标 检测 算法 。 例 如 : 


Python make json.py train | images dir train.json 


上 述 命令 会 遍历 文件 夹 train images dir 中 的 所 有 图 像 文件 ， 而 后 要 求 用 手工 方 
式 标记 目标 在 图 像 中 的 位 置 生成 真 值 文件 train.json, train json 文件 中 将 含有 目标 类 型 
和 目标 在 图 像 中 的 位 置信 息 。 除了 这 种 方式 , 还 可 以 使 用 转换 程序 对 其 他 格式 图 像 检 
测 真 值 数 据 进 行 格式 转换 ， 如 PASCAL 竞赛 2 中 的 真 值 数据 等 。 


配置 运行 参数 后 ， 运 行 train.py 程序 即 可 开启 训练 过 程 。 训 练 完毕 后 ， 使 用 
evaluate.py 程序 可 以 完成 对 数据 集 的 样本 测试 。 在 TensorBox 中 ， 还 提供 了 iPython 
版 本 的 程序 evaluate.ipynb， 可 查看 相关 检测 结果 。 


训练 数据 预 处 理 


在 前 面 的 章节 中 我 们 提 到 用 深度 学 习 方法 来 解决 图 像 检测 问题 , 可 以 近似 地 认为 
一 个 分 类 与 回归 的 组 合 问题 。 一 方面 需要 通过 分 类 判断 目标 是 否 存在 , 另 一 方面 还 需 
要 通过 回归 预测 目标 的 位 置信 息 。 在 实现 过 程 中 , 训练 数据 的 预 处 理 是 问题 转化 的 关 
键 .图 像 检 测 问题 中 样本 真 值 信息 一 般 包 含有 目标 的 类 型 信息 和 目标 在 图 像 中 的 位 置 
信息 。 训 练 数 据 预 处 理 的 目的 就 是 将 单 张 图 像 中 标记 的 真 值 信息 转化 为 便于 深度 学 习 
算法 使 用 的 格式 。 


TensorBox 使 用 图 像 网 格 化 的 方式 来 对 数据 真 值 信 息 进行 转化 。 函 数 get. cell grid 
根据 输入 的 网 格 尺 寸 、 网 格 行 数 和 网 格 列 数 返回 对 应 的 网 格 信息 列表 。 列表 元 素 含有 
网 格 的 左上 角 和 右 下 角 点 坐标 位 置 以 及 网 格 的 序号 AnnotationLib 为 位 置信 息 类 型 ， 


30 PASCAL 竞赛 主页 : http://host.robots.ox.ac.uk/pascal/VOC/。 
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它 含有 一 些 矩 形 区 域 重 大 面积 的 比较 操作 ， 代 码 如 下 。 


import annolist.AnnotationLib as al 
def get cell grid(cell width, cell height, region size): 


cell regions - [] 
for iy in xrange(cell height): 
for ix in xrange(cell width): 
cidx = iy * cell width + ix 
ox = (ix + 0.5) * region size 
oy = (iy + 0.5) * region size 
r -al.AnnoRect (ox- 0.5 * region size, oy - 0.5 * region size, 
ox + 0.5 * region size, oy + 0.5 * region size) 
r.track id - cidx 
cell regions.append(r) 
return cell regions 


从 TensorBox 源码 文件 utils/data. utils.py 中 的 函数 annotion to h5 可 以 获知 具体 
转换 方式 。 代 码 如 下 所 示 , 算法 首先 获取 配置 文件 中 的 网 格 尺寸 , 并 验证 网 格 尺寸 对 
应 网 格 行 数 与 网 格 列 数 与 原始 图 像 大 小 的 有 效 性 。 输 入 变量 H 表示 读 取 的 参数 配置 
信息 , 变量 a 中 加 载 了 json 图 像 真 值 文件 的 位 置信 息 。 调 用 get_cell_grid 函数 将 图 像 
的 网 格 信息 保存 在 cell regions 对 象 中 。 网 格 的 数量 为 cells per image。 初 始 化 box_list 
长 度 为 cells_per_ image 的 空 的 列表 用 于 保存 网 格 对 应 的 真 值 目标 信息 。 


def annotation to h5(H, a, cell width, cell height, max len): 


size) 


region size = H['region size'] 

assert H['region size'] --H['image height'] / H['grid height'] 
assert H['region size'] -- H['image width'] / H['grid width'] 
cell regions - get cell grid(cell width, cell height, region. 


cells per image - len(cell regions) 


box list = [[] for idx in range(cells per image)] 


PRN 63 Fie DATA EA ig SA Eb fr ERG EE 
位 置 重 谷 则 将 所 有 的 真 值 信息 以 列表 的 形式 保存 至 box list 对 应 的 元 素 中 。 
intersection 函数 是 annolist.AnnotationLib.AnnoRect 的 类 成 员 函 数 。 简 单 判断 矩形 对 象 
是 否 存在 重 登 的 代码 如 下 。 
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box list[cidx] = [r for r in a.rects if all(r.intersection 


(c))] 


初始 化 样本 标记 boxes 为 (1, cells per image, 4, max len, 1) 尺 寸 大 小 的 真 值 位 置 
信息 标记 和 矩阵。 尺寸 向 量 中 第 一 个 1 表示 输入 一 张 图 像 ，cells_per_image 表示 网 格 数 
量 ,4 表示 用 于 存储 网 格 的 中 心 点 和 长 宽 信息 ， 最 后 一 个 1 表示 目标 的 类 型 数值 。 
max len 表示 人 允许 的 最 大 目标 遮挡 次 数 。 在 OverFeat 算法 中 该 值 为 1, ReInspect 算法 
中 该 值 对 应 LSTM 网 络 的 循环 次 数 。 类 似 的 ，box_flags 为 (1, cells per image, 1, 
max_len, 1) 尺 寸 大 小 的 真 值 类 型 信息 标记 抢 阵 。 
boxes = np.zeros((1, cells per image, 4, max len, 1), dtype = 
np.float) 
box flags = np.zeros((1, cells per image, 1, max len, 1), dtype 
= np.float) 
因为 TensorBox 将 网 格 作为 基本 单元 来 预测 目标 的 位 置 以 及 实现 目标 类 型 的 判 
断 , 所 以 boxes 保存 的 位 置信 息 是 目标 真 值 在 图 像 相 对 于 对 应 网 格 的 位 置信 息 。 更改 
box. list 对 应 网 格 真 值 的 位 置 为 相对 信息 。 考 虑 到 最 大 重 倒 目标 数量 ， 这 里 使 用 
max, len 进行 了 循环 限制 。 通 过 比较 目标 真 值 位 置 中 心 和 网 格 中 心 的 距离 和 最 大 真 值 
Rot, 将 满足 条 件 的 真 值 目标 加 入 到 unsorted_boxes 队列 中 。 满足 条 件 的 网 格 将 作为 
正 样本 进行 训练 。 GU, 将 作为 负 样本 进行 训练 。 最 后 将 真 值 目标 根据 与 网 格 中 心 点 
的 相对 位 置 从 小 到 大 排序 加 入 到 boxes 中 。box_flags 保存 对 应 的 类 型 信息 。 因为 
box flags 值 默认 为 0， 因 此 限制 有 效 目 标的 类 型 标签 最 小 为 1， 代 码 如 下 所 示 。 
for cidx in xrange(cells per image): cell ox - 0.5 * 


(cell regions[cidx].x1 + cell regions[cidx] .x2) 


cell oy 0.5 * (cell regions [cidx] .yl + cell regions [cidx]. 
y2) 


unsorted boxes = [] 
for bidx in xrange(min(len(box list[cidx]), max len)): 
# relative box position with respect to cell 
ox = 0.5 * (box list[cidx][bidx].xl + box list[cidx] 
[bidx].x2) - cell ox 
oy = 0.5 * (box list[cidx][bidx] -yl + box list 
[cidx][bidx].y2) - cell oy 


width = abs(box list[cidx][bidx].x2 - box list[cidx] 
[bidx].x1) 
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height= abs(box list[cidx][bidx].y2 - box list[cidx] 
[bidx] .y1) 
if (abs(ox) < H['focus size'] * region size and abs (oy) 
< H['focus size'] * region size and 
width <  H['biggest box px'] and height < 
H['biggest box px']): 
unsorted boxes.append (np.array([ox, oy, width, 
height], dtype-np.float)) 
for bidx, box in enumerate (sorted(unsorted boxes, key-lambda 
X: x[0]**2 + x[1]**2)): 
boxes[0, cidx, :, bidx, 0] = box 
box flags[0, cidx, 0, bidx, 0] - max(box list[cidx] 
[bidx].silhouetteID, 1) 


return boxes, box flags 


简 而 言 之 , 以 上 转换 的 目的 就 是 将 图 像 分 解 为 若干 个 大 小 相等 的 子 图 块 , 并 对 每 
一 个 子 图 块 赋予 检测 目标 类 型 和 目标 位 置信 息 。 在 上 述 转换 算法 中 目标 最 大 遮挡 次 数 
max len 是 区 分 ReInspect 算 法 和 OverFeat 算法 的 关键 .在 ReInspect 算 法 中 max_len>1， 
高 层 网 络 使 用 了 基于 LSTM 的 循环 神经 网 络 ， 人 允许 同一 个 网 格 产生 多 个 存在 遮挡 的 
检测 结果 。 而 OverFeat 算法 的 网 络 高 层 仅 使 用 了 线性 分 类 器 ， 一 个 网 格 只 能 有 一 个 
险 测 结果 ， 此 时 max len 仅 允 许 为 1。 


队列 是 TensorFlow 为 训练 数据 快速 VO 操作 提供 的 一 种 独立 线程 异步 运行 机 制 。 
这 种 机 制 的 典型 应 用 就 是 多 个 线程 准备 训练 数据 进行 入 队列 操作 , 与 此 同时 ,训练 程 
序 则 在 另 一 个 线程 中 运行 优化 并 通过 调用 出 队列 操作 来 获取 训练 数据 ,TensorFlow 中 
的 队列 类 型 主要 是 指 FIFOQueue 和 RandomShuffleQueue 这 两 种 。 本 例 中 使 用 的 是 
FIFOQueue 队列 。 在 TensorFlow 的 官方 文档 ?中 可 以 查阅 相关 介绍 。 在 下 一 节 图 像 摘 
要 的 例子 中 将 介绍 使 用 RandomShuffleQueue 队列 进行 大 数据 训练 。 定义 好 线程 队列 
Ja, ©) $279 tf.train.start queue runners 函数 开启 会 话 线程 队列 机 制 ， 并 在 独立 线程 中 
运行 会 话 的 数据 入 队列 操作 。TensorFlow 内 部 将 自动 实现 数据 入 /出 队列 线程 和 训练 
线程 的 同步 等 待 。 


算法 采用 线程 队列 的 方式 为 训练 数据 提供 数据 。 如 下 代码 所 示 , 令 输 入 图 像 数 据 


31 介绍 线程 和 队列 的 官方 文档 网 址 ; https://www.tensorflow.org/programmers_guide/threading_ 
and queues, 
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表示 为 x_ in、 对 应 的 网 格 样本 置信 度 表示 为 confs in, boxes in 表示 预测 位 置 坐标 信 
息 。 列 表 对 象 q 表示 TensorFlow 内 部 容量 上 限 为 30 的 先进 先 出 队列 。 队 列 中 的 每 个 
元 素 是 由 x in, confs in 和 boxes_in 构成 的 元 组 。enqueue_op 表示 入 队列 操作 。 


X in = tf.placeholder(tf.float32) 
confs in = tf.placeholder(tf.float32) 
boxes in - tf.placeholder(tf.float32) 
q = 
enqueue op = {} 
for phase in ['train', 'test']: 
dtypes = [tf.float32, tf.float32, tf.float32] 
grid size - H['grid width'] * H['grid height'] 
shapes = ( 
[H['image height'], H['image width'], 3], 
[grid size, H['rnn len'], H['num classes']], 
[grid size, H('rnn len'], 4], 
) 


q[phase] = tf.FIFOQueue (capacity=30, dtypes=dtypes, 
shapes=shapes) 
enqueue op[phase] = q[phase] .enqueue((x_in, confs_in, 


boxes_in)) 


EKZ% make. feed 负责 为 TensorFlow 网 络 提供 占 位 符 的 输入 信息 。 函 数 thread_loop 
实现 了 网 络 训练 数据 的 入 队列 操作 。 
def make feed(d): 
return (x in: d['image'], confs in: d['confs'], boxes in: 


d['boxes'], 
learning rate: H['solver']['learning rate']) 


def thread loop(sess, enqueue op, phase, gen): 
for d in gen: 
sess.run(enqueue op[phase], feed dict-make feed(d)) 

在 相同 的 Session 作用 域 下 执行 入 队列 操作 。 随 后 开启 入 队列 线程 。 其 中 对 象 gen 
表示 for 循环 yield 和 迭代 器 。 最 后 ， 令 入 队列 线程 为 守护 线程 。 确 保 直 至 整个 进程 结 
束 时 才 退 出 循环 。 其 中 config 由 函数 给 ConfigProto 返回 ， 用 以 指示 TensorFlow 是 在 
CPU 或 GPU 中 运行 。 函 数 tftrain.start_queue_runners 开启 运行 会 话 中 的 线程 队列 。 


with tf.Session(config-config) as sess: 
tf.train.start queue runners (sess-sess) 
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for phase in ['train', 'test']: 
# enqueue once manually to avoid thread start delay 
d = gen.next () 
sess.run(enqueue op[phase], feed dict-make feed(d)) 
t = threading.Thread(target-thread loop, 
args-(sess, enqueue op, phase, gen)) 
t.daemon = True 
t.start() 


GoogLeNet 网 格 图 像 编码 与 感知 域 


对 图 像 真 值 进行 转换 后 还 需要 对 图 像 块 进行 特征 提取 , 而 后 才能 转换 为 一 般 意 义 
上 的 深度 学 习 分 类 与 回归 问题 。 在 前 面 的 章节 中 已 经 介绍 了 GoogLeNet 网 络 结构 与 
VGGNet 网 络 结构 。 这 两 种 网 络 结构 都 使 用 了 池 化 层 对 原 图 进行 降 采 样 处 理 。 
TensorBox 默认 使 用 的 网 格 尺 寸 为 32x32， 即 进行 过 5 次 [2,2] 大 小 的 降 采 样 操作 后 的 
网 络 输出 结果 可 等 价 视 为 以 网 格 为 单位 的 特征 提取 结果 。 


相 较 于 VGGNet 网 络 结 构 ，GoogLeNet 使 用 1 x 1 卷 积 等 并 行 结构 ， 同 时 扩展 了 
网 络 的 宽度 和 深度 。 按 照 TensorFlow 的 网 络 定义 经 过 相同 数量 的 降 采 样 操作 后 ， 
GoogLeNet 顶层 网 络 的 单个 网 格 特征 拥有 更 大 的 感知 域 。 


TensorFlow 官方 源码 中 ， 给 出 了 使 用 TF-Slim 实现 的 GoogLeNet 和 VGGNet 结 
构 , 其 结构 如 表 6-2 所 示 。TensorBox 默认 使 用 GoogLeNet 作为 训练 模型 的 使 用 方法 。 
训练 时 ， 通 过 slim 模块 的 assign from checkpoint fn 函数 实现 先 验 模型 参数 的 加 载 。 
关键 代码 如 下 所 示 , slim.assign_from_checkpoint_fn 函数 有 两 个 输入 参数 , GoogLeNet 
其 中 一 个 参数 用 于 指定 GoogLeNet 网 络 结构 的 模型 存档 地 址 ， 另 一 个 参数 用 于 指定 
需要 训练 的 变量 集合 

init fn = slim.assign from checkpoint fn( 

'$s/data/inception.ckpt'$os.path.dirname(os.path.realpath( fil 


e )), 
[x for x in tf.all variables() if x.name.startswith('InceptionV1') 
and not H['solver'J['opt'] in x.name]) 
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GoogLeNet 
名 称 
Conv2d_ 
la 7x7 
MaxPool_ 
2a_3x3 
Conv2d_ 
2b Ixl 
Conv2d_ 
2c 3x3 
MaxPool! 
3a 3x3 


Mixed 3b 


Mixed 3c 


MaxPool 
4a 3x3 


Mixed 4b 


Mixed 4c 


Mixed 4d 


Mixed 4e 


Mixed 4f 


MaxPool 
5a 2x2 


Mixed 5b 


Mixed 5c 
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表 6-2 GoogLeNet 和 VGG19 的 网 格 各 层 感 知 域 大 小 


卷 积 [7,7] 


池 化 [3,3] 


卷 积 [1,1] 


卷 积 [3,3] 


池 化 [3.3] 


inception 


inception 


池 化 


inception 


inception 


inception 


inception 


inception 


池 化 [2,2] 


inception 


inception 


步 长 


2 
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(7,7] 


011,11] 


[11,11] 


[19,19] 


[27,27] 


[43,43] 


[59,59] 


[75,75] 


[107,107] 


[139,139] 


(171,171) 


[203,203] 


[235,235] 


[251,251] 


[315,315] 


[379,379] 


VGGNet19 
名 称 


covel_1 


conv] 2 


pooll 


conv2 | 


conv2 2 


pool2 
conv3 | 
conv3 2 


conv3 3 
conv3 4 


pool3 

conv4 1 
conv4 2 
conv4 3 
conv4 4 
pool4 

conv$ | 
conv$ 2 
conv5 3 


conv5 4 


pool5 


fc6 
fc7 
fc8 


类 型 
卷 积 [3.3] 


卷 积 [3,3] 


池 化 [2,2] 


卷 积 [3,3] 


卷 积 [3,3] 


池 化 [2,2] 
卷 积 [3,3] 
卷 积 [3,3] 
卷 积 [3,3] 


卷 积 [3,3] 


池 化 [2,2] 
卷 积 [3,3] 
卷 积 [3,3] 
卷 积 [3,3] 
卷 积 [3,3] 
池 化 [2,2] 
卷 积 [3,3] 
卷 积 [3,3] 
卷 积 [3,3] 
卷 积 [3,3] 


池 化 [2,2] 


卷 积 [7,7] 
卷 积 [1,1] 
卷 积 [1,1] 





感知 域 


[3,3] 


[5,5] 


[6,6] 


[10,10] 


[14,14] 


[16,16] 
[2424] 
[32,32] 
[40,40] 


[48,48] 


[52,52] 

[68,68] 

[84,84] 

[100,100] 
[116,116] 
[124,124] 
[156,156] 
[188,188] 
[220,220] 
[252,252] 


[268,268] 


[460,460] 
[460,460] 
[460,460] 
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3k 6-2 中 列举 出 了 TensorBox 中 GoogLeNet 和 VGG19322 网 格 结构 的 所 有 卷 积 层 和 
池 化 层 ， 以 及 对 应 的 感知 域 。 其 中 ， GoogLeNet 网 络 中 的 Inception 网 络 结构 在 前 面 
介绍 CNN 的 章节 中 已 经 介绍 过 。Inception 网 络 结构 包括 4 个 并 行 的 网 络 分 支 ， 分 别 
使 用 1 x 1 卷 积 、3 x 3 卷 积 、5 x 5 卷 积 和 池 化 分 支 构 成 。 因 Inception 网 络 结构 中 的 分 
支 存 在 两 层 卷 积 , 所 以 一 个 Inception 网 络 结构 会 令 网 络 深度 加 2。 感知 域 是 指 高 层 网 
络 中 的 单个 网 格 特征 对 应 原始 图 像 输入 端的 有 效 计算 区 间 。 这 里 以 GoogLeNet 网 络 
结构 的 前 4 层 为 例 进行 说 明 。 输 入 层 经 过 一 个 卷 积 核 大 小 为 7 x 7、 步 长 为 2 的 卷 积 
操作 到 达 第 一 层 网 络 。 显然 第 一 层 网 络 中 的 网 格 特征 感知 域 为 [7,7]。 而 后 ,第 一 层 网 
络 经 过 一 个 尺寸 为 3 x 3、 步 长 为 2 的 池 化 操作 进入 到 第 三 层 网 络 。 因 为 池 化 尺寸 为 
[3,3], 所 以 感知 区 间 相 较 于 上 层 增加 了 [2,2] 个 单元 。 又 因为 此 时 相 较 于 输入 层 的 计算 
步 长 为 2， 总 体 上 感知 域 尺 寸 增 加 了 [2 x 2,2 x 2] 个 单元 。 此 时 的 感知 域 为 [11,11]， 
相 较 于 输入 层 的 计算 步 长 为 4。 第 三 层 网 络 操作 是 大 小 为 1 x 1、 步 长 为 1 的 单元 卷 积 ， 
此 时 感知 域 尺寸 保持 不 变 。 第 四 层 网 络 操作 是 大 小 为 3 x 3、 步 长 为 1 的 卷 积 ， 此 时 
感知 域 尺 寸 增加 量 为 [2 x 4,2 x 4], 感知 域 变 为 [19,19]。 余 下 层次 对 应 的 感知 域 依次 
类 推 。 


MR 6-2 中 可 以 看 出 GoogLeNet 的 最 大 感知 域 为 [379,379]，TensorFlow 实现 中 
对 应 层 的 名 称 是 Mixed 5c, ifü TensorBox 默认 的 实现 加 载 的 是 Mixed_5b， 对 应 的 感 
知 域 大 小 是 [315，315]。 另 一 方面 ， 因 为 VGGNet 中 的 fco 层 使 用 了 非 填充 式 卷 积 ， 
从 这 一 层 开始 的 网 格 特征 与 TensorBox 提供 的 样本 网 格 标记 方式 不 再 一 一 对 应 。 所 以 
在 不 改动 TensorBox 样本 网 格 标记 的 前 提 下 ，VGG19 单个 网 格 的 最 大 有 效 感知 域 是 
[268,268]， 对 应 的 层次 是 pool5。 


前 文 提 到 了 图 像 检测 问题 可 以 视 为 一 个 图 像 网 格 化 特征 的 目标 分 类 和 位 置信 息 
值 样本 图 像 网 格 转化 后 , 每 一 个 图 像 网 格 被 赋予 真 值 信息 。 真 值 信息 包括 网 格 对 应 竺 


检测 目标 类 型 和 待 检测 目标 的 位 置信 息 。 其 中 , 待 检测 目标 的 位 置信 息 是 以 网 格 中 心 
为 原点 给 出 的 。 


当 网 格 待 检测 目标 的 位 置信 息 尺寸 远大 于 网 格 的 感知 域 时 ， 这 意味 着 网 格 抽 取 的 
32 vgg 网 络 包含 两 个 不 同 的 实现 版 本 vgg_16 和 vgg_19。 其 中 16 和 19 分 别 代表 卷 积 层 的 数量 。 
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特征 是 待 检测 目标 的 部 分 外 观 特征 , 而 并 非 待 检测 目标 的 全 部 特征 。 当 这 种 类 型 的 样 
本 在 训练 集中 占 比较 大 时 ,会 对 算法 性 能 产生 较 大 的 不 良 影响 , 可 能 会 导致 过 拟 合 或 
者 不 收敛 。 另 一 方面 ， 当 网 格 的 待 检测 真 值 尺寸 信息 远 小 于 网 格 特征 的 感知 域 时 ,这 
意味 着 感知 域 中 的 大 部 分 信息 都 是 非 目标 区 域 。 此 时 , 网 格 特征 中 含有 较 多 的 非 目标 
特征 信息 , 这 可 能 需要 更 多 的 训练 样本 进行 参数 调整 防止 模型 的 过 拟 合 。 若 目标 尺寸 
过 小 且 随 机 出 现在 网 格 中 , 则 可 能 无 法 抽取 目标 的 有 效 特征 , 以致 产 生 训练 不 收敛 的 
结果 。 因 此 ， 对 不 同 的 检测 目标 集合 选择 不 同 的 感知 域 是 很 有 必要 的 。 与 VGG19 相 
比较 , GoogLeNet 网 格 具有 更 好 的 宽度 和 深度 , 能够 更 好 地 反映 网 格 内 感知 域内 的 目 
标 特征 。 


TensorBox 的 内 部 实现 提供 了 放大 分 辨 率 的 网 格 特征 选项 。 可 在 TensorBox 源码 
文件 train.py 中 找到 rezoom 函数 。 相 关 参 数 设置 可 在 hypes 文件 夹 下 的 json 文件 中 
设置 ,TensorBox 默认 有 Istm.json ,Istm_rezoom.json 、overfeat.json ,overfeat rezoom.json 
四 种 配置 文件 。 其 中 , Istm_rezoom.json 和 Istm.json 分 别 表示 Relnspect 算法 下 使 用 和 
不 使 用 低层 网 格 特征 的 参数 配置 。overfeat_rezoom,json 和 overfeatjson 分 别 表示 
OverFeat 算法 下 使 用 和 不 使 用 低层 网 格 特征 的 参数 配置 。 其 中 overfeat _rezoom.json 
格式 的 配置 文件 中 “use_rezoom”:true， 表 示 使 用 低层 网 络 特征 。 


当 使 用 放大 分 辨 率 的 网 格 特征 时 ， 系 统 将 使 用 rezoom 函数 。 该 函数 先 通过 输入 
高 层 网 格 特征 预测 的 目标 位 置 定位 4 个 中 心 点 距离 最 近 的 低层 网 格 。 然 后 , 再 利用 两 
者 的 距离 对 4 个 低层 网 格 特征 进行 线性 插值 获取 融合 特征 。 此 时 ,系统 将 同时 利用 插 
值 融合 网 格 特征 和 高 层 网 格 特征 进行 目标 类 型 的 分 类 训练 和 位 置 的 回归 预测 训练 。 由 
utils/googlenet_load.py 文件 中 可 以 看 到 ，TensorBox 默认 加 载 的 是 GoogLeNet 模型 。 
使 用 的 高 层 特征 名 称 是 Mixed_5b， 对 应 的 4 个 低层 特征 对 应 的 网 络 层 名 称 是 
Mixed 3b, 在 json 配置 文件 中 的 rezoom_w_coords 和 rezoom_h_coords 参数 项 分 别 含 
有 两 个 值 ， 用 来 表示 4 个 左上 、 右上、 左下 、 右 下 4 个 插值 网 格 相 较 于 高 层 网 格 特征 
预测 的 目标 中 心 点 的 网 格 相对 距离 。 最 后 将 与 region_size 结合 确认 具体 的 4 个 低层 
插值 网 格 。 





LSTM 高 层 网 络 结构 
Relnspect 算法 在 GoogLeNet 网 格 上 继续 添加 LSTM 循环 网 络 结构 抽取 特征 。 在 
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util/*.json 格式 的 配置 文件 中 use_Istm 的 值 为 tue 时 ， 表 示 使 用 LSTM 高 层 网 络 。 
mnn len 表示 推倒 的 LSTM 循环 网 络 次 数 。 前 文 介绍 的 训练 数据 预 处 理 中 的 网 格 内 最 
大 覆盖 目标 数量 与 mn len 的 值 相同 。ReInspect 算法 使 用 LSTM 网 络 的 中 心思 想 是 使 
用 LSTM 循环 网 络 对 GoogLeNet 网 格 特征 进行 多 次 特征 提取 。 若 网 格 存在 被 谈 挡 的 
目标 ，ReInspect 算法 则 期 望 能 够 利用 LSTM 网 络 的 记忆 特性 对 被 遮挡 的 目标 做 进 一 
步 的 判断 检测 。 令 网 格 样本 真 值 中 存在 n(n<rnn_len) 个 目标 真 值 ,对 于 生成 的 rmn_len 
个 LSTM 循环 网 络 特征 ， 可 以 设置 不 同 的 真 值 映 射 规则 。 与 真 值 匹配 的 序列 样本 被 
设置 为 正 样本 , 其 他 样本 被 设置 为 负 样 本 。 这 种 方式 将 遮挡 目标 检测 问题 转化 为 一 种 
目标 序列 的 分 类 问题 。 


关键 代码 如 下 所 示 ， 其 中 HItstm_size] 表 示 LSTM 网 络 的 特征 维 数 。 配 置 参 数 
H[num_lstm_layers] 表 示 LSTM 网 络 的 釜 加 次 数 。 函 数 mn. cell. MultiRNNCell 负责 实 
Jb LSTM ZRH. AHK LSTM 网 络 使 用 不 同 的 参数 。 输 入 参数 [lstm_cel] * 
H['num Istm layers]7j LSTM 网 络 定义 操作 的 列表 对 象 。 理 论 上 短 加 的 次 数 越 多 , 能 
概括 的 图 像 遮挡 情况 越 复 杂 ， 但 需要 的 样本 也 越 多 。 


def build lstm inner(H, lstm input): 


build lstm decoder 

tee 

istm_cell = rnn cell.BasicLSTMCell(H['lstm size'], forget bias-0.0, 
state is tuple-False) 

if H['num lstm layers'] > 1: 


lstm - rnn cell.MultiRNNCell([lstm cell] i 
H['num lstm layers'], state is tuple-False) 
else: 


lstm = lstm cell 


输入 数据 根据 图 像 网 格 大 小 和 同时 输入 的 图 像 数量 划分 为 大 小 为 batch_size 的 二 
维 数据 包 。 如 前 文 所 述 ,假设 网 格 中 遮挡 目标 的 最 大 重 番 次 数 为 H[rmn len], 则 可 在 
for 循环 中 结合 条 件 语句 使 用 t£get variable scope().reuse variables()3:3 lstm MAF 
数 的 复 用 。 ERE tf.get_variable_scope(.reuse_variables() 函 数 , 在 变量 作用 域 RNN' 
中 的 for 循环 中 第 二 次 使 用 Istm(lstm input, state) 函 数 时 , 将 创建 两 个 同名 的 张 量 产生 
运行 时 错误 。 不 使 用 tfget_variable_scope().reuse_variables() 函 数 时 ， 不 允许 返回 两 个 
name 属性 相同 的 张 量 。 变 量 作 用 域 是 张 量 name 属性 的 组 成 部 分 。 
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最 后 ,基于 网 格 的 batch 数据 将 输入 lstm 网 络 , 产生 H['rmn_len"] 次 特征 提取 结果 
以 反映 遮挡 目标 的 图 像 特征 output。 关 于 reuse variables 函数 及 其 相关 概念 ， 可 参见 
官方 文档 ”。 


batch size = H['batch size'] * H['grid height'] * H['grid. 


width'] 
state = tf.zeros([batch size, lstm.state size]) 
outputs - [] 
with tf.variable scope('RNN', initializer-tf.random uniform. 


initializer(-0.1, 0.1)): 
for time step in range (H['rnn len']): 
if time step» 0: tf.get variable scope().reuse variables () 
output, state - lstm(lstm input, state) 
outputs.append (output) 
return outputs 
由 此 可 见 ， 在 Relnspect 算法 中 一 个 网 格 特征 最 多 能 够 产生 “rn_len 个 目标 检 
测 结果 。 而 OverFeat 算法 中 1 个 网 格 特征 最 多 只 能 有 1 个 检测 结果 。 这 两 种 算法 的 
样本 预 处 理 是 不 同 的 。 训 练 时 ReInspect 算法 前 向 传播 ， 单个 网 格 将 会 返回 多 个 特征 
和 多 个 类 型 标签 。 在 计算 损失 函数 前 网 格 ReInspect 算法 需要 将 序列 特征 的 预测 结果 
与 真 值 进行 匹配 后 , 再 对 序列 样本 赋予 类 别 标签 计算 损失 函数 。 所 以 在 损失 函数 的 计 
算 前 ， 有 必要 对 样本 序列 的 排列 次 序 进行 调整 。 这 项 操作 被 称 为 损失 函数 预 处 理 。 


损失 函数 预 处 理 


通过 调整 循环 LSTM 网 络 结构 产 出 特征 的 标签 信息 ， 能 够 确保 特征 序列 能 够 正 
确 反映 诞 挡 检测 目标 。 例 如 ， 根 据 前 文 对 训练 数据 预 处 理 的 介绍 ， 当 循环 LSTM 网 
络 的 循环 次 数 为 m 时 。 每 一 个 网 格 将 产 出 m 对 特征 样本 和 标签 信息 组 成 的 序列 。 在 
训练 样本 预 处 理 过 程 中 ,我 们 已 经 确保 了 检测 目标 的 真 值 信息 优先 出 现在 序列 的 前 面 。 
但 ，LSTM 生成 的 序列 与 真 值 之 间 并 无 关联 。 若 网 格 对 应 存在 n 个 遮挡 目标 时 , BU n 
个 网 格 特征 序列 对 应 的 具体 真 值 信息 是 没有 逻辑 关联 的 。 认 定 第 一 个 序列 特征 对 应 第 
一 个 真 值 是 不 合理 的 ,而 没有 确定 特征 与 真 值 的 匹配 关系 将 无 法 计算 损失 函数 。 因 此 ， 
在 训练 过 程 中 应 考虑 特征 与 真 值 信息 的 匹配 关系 。 显 然 , 这 是 一 个 典型 的 二 部 图 问题 。 
Relnspect 算法 使 用 匈牙利 算法 完成 前 ”个 特征 序列 与 真 值 之 问 的 匹配 ， 即 希望 训练 





33 https://www.tensorflow.org/programmers, _guide/variable_ scopeo 
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时 前 个 特征 序列 的 预测 结果 与 真 值 的 总 体 加 权 匹 配 损失 是 最 小 的 。 匈 牙 利 算法 “ 早 
在 1965 年 由 匈牙利 数学 家 Edmonds 提出 ,是 解决 二 部 图 问题 的 经 典 算法 ,限于 篇 幅 ， 
本 书 不 再 复述 。 

训练 时 ReInspect 算法 会 对 网 格 特征 序列 的 预测 结果 与 真 值 信息 进行 匹配 调整 预 
测 结果 ， 匹 配 间 题 如 图 6-3 所 示 。 


imi pion DXX 


6-3 ”检测 结果 匹配 预 处 理 示意 图 


假设 网 格 最 多 产生 4 个 特征 序列 预测 结果 由 数字 标 出 ,与 该 网 格 对 应 的 目标 真 什 
数量 为 2。 通过 定义 一 个 [2,4] 大 小 的 代价 矩阵 ， 从 中 挑选 出 2 个 不 同行 列 的 元 素 求 和 
用 以 表示 匹配 的 代价 值 。 匹 配 问 题 就 是 找 出 真 值 信息 与 检测 结果 的 最 小 代价 对 应 关系 。 
匹配 距离 计算 方法 如 下 公式 所 示 。 









(0,4,0.1) 











A(b;, b;) = (oir dij) 


其 中 , bi 表示 真 值 位 置 。 Bb 表示 特征 序列 的 一 个 预测 位 置 。0;; € (0,1), 当 bi 与 5 的 
BAR MOAT RAM, = 0， 否 则 oj = 1。 表示 特征 在 序列 中 的 序号 ， 越 靠 前 
的 预测 结果 匹配 代价 越 小 。 djj 表 示 bi 与 加 对 应 区 域 中 心 点 的 距离 , 距离 越 小 代价 越 小 。 
代价 函数 优先 比较 0;)， 其 次 比较 ny ， 最 后 考量 dij;。 匹 配 距离 的 计算 方式 如 图 6-3 所 示 
序列 特征 1 和 4 对 应 的 匹配 距离 为 (0,1,0.3) 和 (0,4,0.1)。 这 种 元 组 信息 在 程序 实现 中 

将 以 加 权 方 式 转化 为 统一 量 纲 的 距离 值 。 


训练 时 ，ReInspect 算法 包括 3 种 不 同 的 匹配 方式 。 一 种 是 如 图 6-3 所 示 的 匈 牙 
利 算法 匹配 方式 Ling, 该 方法 下 mn len 个 循环 LSTM 网 络 特征 预测 结果 将 与 n 个 真 


34 匈牙利 算法 介绍 : https://en.wikipedia.org/wiki/Hungarian_algorithm。 
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值 进行 匹配 ， 匹 配 成 功 的 n 个 网 格 特 征 将 被 赋予 目标 真 信 镜 下 的 mn. Tenn 个 网 格 特 
征 将 作为 负 样本 进行 训练 。 第 二 种 方法 记 为 Lasw, 是 将 个 真 值 与 特征 序列 中 的 前 n 
预测 结果 进行 匈牙利 匹配 , 对 前 ”个 特征 序列 按照 匹配 结果 赋予 真 值 。 第 三 种 方法 是 
固定 检测 结果 与 真 值 之 前 的 关系 记 为 Lox。 经 过 上 述 任 一 方式 转换 后 ， 都 可 以 对 循环 
LSTM 网 络 特征 进行 一 般 意义 上 的 样本 训练 。 


TensorBox 中 的 Relnspect 算法 是 按照 Lhung 方法 对 检测 结果 进行 预 处 理 的 。 在 
train.py 文件 中 的 build_forward_backward 函数 可 以 看 到 对 TensorFlow 自 定义 动态 库 
的 调用 方法 。 在 源码 文件 utilsthungarian\hungarian.cc 查看 具体 的 逻辑 实现 代码 。 
TensorFlow 提供 了 C/C++ 模块 扩展 接口 ， 在 其 官方 文档 5 中 也 可 以 查看 自 定义 算 子 的 
详细 说 明和 示例 。 


损失 函数 


如 同一 般 的 深度 学 习 问 题 ， 图 像 检测 算法 需要 输入 大 量 的 训练 图 像 数据 通过 损失 
函数 计算 的 反 向 传播 梯度 实现 模型 参数 优化 ， 并 最 终 训练 得 出 检测 模型 。 图 像 检 测 问 
题 不 仅 需要 判断 目标 的 类 型 ， 还 需要 得 出 目标 的 位 置信 息 。 因 此 ， 这 一 问题 实质 上 是 
一 个 关于 图 像 的 分 类 问题 和 位 置信 息 的 逻辑 回归 问题 的 组 合 问题 。 在 实际 应 用 中 , 可 
以 使 用 线性 加 权 的 方式 来 对 检测 目标 的 类 型 和 位 置信 息 进行 融合 加 权 。TensorBox 所 
使 用 的 损失 函数 如 下 式 所 示 。 





jal lpos bios BID icl 1}, y;) 

其 中 ，N 表示 图 像 数量 。 集 合 G 表示 单 张 图 像 标记 的 目标 位 置信 息 集 合 。 网 格 
位 置信 息 数 量 |C| 由 原始 标注 信息 与 覆盖 网 格 的 数量 决定 。 集合 C 表示 划分 的 图 像 网 
KEG, 对 于 相同 尺寸 的 图 像 ， 数 值 |C| 是 保持 不 变 的 。 lpos 表 示 目标 位 置信 息 损失 函 
数 。 它 反映 网 格 标记 目标 位 置 坐标 值 与 预测 坐标 值 的 差异 。 在 程序 中 该 函数 是 位 置 向 
量 差 的 绝对 值 之 和 。 它 有 两 个 输入 参数 ， 其 中 bos 表示 第 i 个 网 格 真 值 标记 的 位 置 区 
HARE. dcs 应 网 格 特征 的 位 置 预测 结果 。 矿 (CD 用 于 表示 第 i 个 真 值 位 置信 








35 自 定义 算 子 文档 : https://www.tensorflow.org/extend/adding_an_opo 
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息 对 应 的 网 格 区 域 映 射 关系 。 在 程序 中 由 区 域 的 中 心 点 距离 决定 。 上 表示 网 格 目 
标 分 类 信息 损失 函数 ， 用 于 度量 网 格 类 型 与 目标 类 型 的 一 致 性 。 它 的 两 个 输入 参数 ， 
BERTI j 特征 的 分 类 判断 置信 度 张 量 。 攻 表示 [0, 了 ] 类 型 标签 张 量 。 因 每 张 图 像 的 
真 值 标记 区 域 G 数量 不 同 需 要 除 以 该 值 进行 归 一 化 。 参 数 a 和 参数 8 用 于 调整 位 置信 
息 和 分 类 信息 损失 函数 的 占 比 权重 。 


lpos (bios, BA) = sum(abs (bio, — Bf) 


Bi-max(5l) 
eve c 
L (51, yj) = sum (> . cran] 


sum (e dmi) 


DRES (> . (a E: man(i) lee (sum (em 的) 


位 置信 息 和 分 类 信息 损失 函数 的 值 分 别 在 不 同 的 量 纲 范畴 表示 , 这 里 使 用 的 参数 
a 和 参数 8 为 经 验 值 。 默认 情况 a = 01, g-1, 即 强调 目标 区 域 的 分 类 判断 对 最 终 检 
测 结果 的 影响 程度 是 位 置信 息 误 差 的 10 倍 。 从 TensorBox 源码 文件 train.py 中 的 
build forward backward 函数 可 知 损失 函数 中 的 分 类 信息 由 张 量 confidences loss 表示 ， 
位 置信 息 由 张 量 boxes loss 表示 。 其中, confidences loss 是 由 分 类 置信 度 带 入 到 函数 
tÉnn.sparse softmax cross entropy with logits 获取 的 。 通 过 查找 TensorFlow 的 源码 关 
键 字 ,可 在 文件 tensorflow\core\kemelsxent op.h 了 解 到 其 具体 实现 如 以 上 公式 所 示 。 


在 程序 实现 中 , 初始 时 图 像 编码 神经 网 络 会 填 入 预先 训练 好 的 模型 参数 , 高 层 自 
定义 网 络 层次 使 用 均值 为 0 且 方 差 较 小 的 初始 权 , 以 此 确保 网 络 在 初始 训练 时 是 易于 
优化 的 ， 不 易 陷入 局 部 最 优 解 中 。 


TensorBox 中 并 没有 采用 一 些 非 均 衡 数 据 的 优化 处 理 方法 。 而 在 Faster R-CNN 的 
训练 过 程 中 对 batch 包 的 数据 正 负 样本 比例 进行 了 1:1 调整 。 这 避免 了 负 样 本 类 型 过 
多 造成 的 非 均衡 数据 训练 问题 。 因 后 续 实 验 中 采用 的 实验 数据 正 样本 几乎 存在 于 每 张 
图 像 中 , 所 以 不 存在 较 严 重 的 非 均 衔 数据 问题 。 当 使 用 TensorBox 训练 一 些 正 样本 标 
记 较 少 的 样本 时 ， 应 考虑 添加 非 均衡 数据 的 优化 操作 。 
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6 CNN4LSTM 看 图 说 话 


检测 后 处 理 


Relnspect 算法 使 用 循环 LSTM 网 络 结构 令 单个 网 格 单元 产生 多 个 序列 特征 ， 并 
以 此 特征 序列 对 这 挡 目标 进行 检测 。 然 而 EID PA EB EFTE AE 
分 ， 直 接 使 用 样本 预 处 理 获 取 的 网 格 标签 训练 循环 LSTM 网 络 同样 会 产生 郊 余 的 检 
测 结 果 。 即 使 利用 LSTM 网 络 特征 获取 了 谈 挡 目标 检测 结果 ， 仍 然 可 能 存在 宛 余生 
检测 结果 。 如 果 使 用 传统 的 置信 度 排 序 与 重 香 判 断 等 后 处 理 方法 来 去 除 艺 余 检测 ， H 
和 利用 LSTM 网 络 特征 检测 获取 的 这 挡 目 标 将 同样 被 认为 是 丈 余 检 测 而 被 移 除 。 
此 ，- 方 面 我 们 期 望 相同 网 格 产生 的 LSTM 网 络 特征 能 够 正确 地 反映 这 档 目标 的 符 
征 信息 ， 另 方面 我 们 同样 期 望 能 够 移 除 相 包 网 格 特征 产生 的 见 余 检测 结果 。 针 对 网 
格 检测 结果 分 组 的 重复 检测 移 除 后 处 理 算法 很 好 地 解决 了 这 一 问题 。 


虽然 使 用 网 烙 上 序列 来 检测 迹 挡 目标 能 够 较 好 地 提升 这 挡 目标 的 检测 率 。 但 是 AR 
各 网 阁 的 感知 起 是 存在 重 得 部 分 的 ,也 就 是 说 相 邻 网 格 的 检测 结果 中 是 存在 日 标 重 揽 
检测 的 。 因 此 。 网 格 检测 完毕 后 还 需要 后 处 理 算法 移 除 网 格 间 的 重复 检测 结果 ， 同 时 
未 要 保留 庆 挡 目 标的 检测 结果 。ReInspect 算法 使 用 的 后 处 理 是 基于 网 格 进行 处 理 的 。 
如 图 6.4 所 示 ， 基 两 重 闪 检测 结果 来 自 相同 网 格 ， 则 同时 保留 。 若 两 重 朋 检测 结果 来 
自 不 同 网 格 ， 则 移 除 可 信 度 较 小 的 检测 结果 。 


(igo ee oe n 








图 6-4 Relnspect 算法 后 处 理 示 意图 


另外 , 为 了 保留 重 痊 目标 检测 结果 ， 单 次 移 除 操作 中 一 个 网 格 检测 结果 最 多 只 能 
移 除 一 个 来 自 另 一 个 网 格 的 重生 检测 结果 。 考虑 到 一 个 检测 结果 可 能 会 与 多 个 不 同 网 
Ten UAE RES 检测 后 处 理 方法 再 一 次 使 用 了 匈牙利 算法 实现 了 不 同 网 格 重 复 检 
测 结果 的 移 除 。 考虑 到 同一 目 标 可 能 出 现 多 次 重复 检测 ， 后 处 理 算法 采用 了 置信 度 分 
段 的 方式 对 检测 结果 进行 了 多 次 匹配 移 除 。 
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息 对 应 的 网 格 区 域 映射 关系 。 在 程序 中 f (i) 由 区 域 的 中 心 点 距离 决定 。lc 表 示 网 格 目 
标 分 类 信息 损失 函数 ， 用 于 度量 网 格 类 型 与 目标 类 型 的 一 致 性 。 它 的 两 个 输入 参数 ， 
于 表示 网 格 j 特征 的 分 类 判断 置信 度 张 量 。y 表 示 [0, 1] 类 型 标签 张 量 。 因 每 张 图 像 的 
真 值 标记 区 域 G 数量 不 同 需要 除 以 该 值 进行 归 一 化 。 参 数 c 和 参数 6 用 于 调整 位 置信 
息 和 分 类 信息 损失 函数 的 占 比 权重 。 





los (bios, BS) = sum(abs (bios — Bf) 


bl -max(B/) 
e gt c 
L(b?, yj) = sum [^ s iram 


sum (eom) 


= sum (o (mai) - o (s (eu)))) 


位 置信 息 和 分 类 信息 损失 函数 的 值 分 别 在 不 同 的 量 纲 范畴 表示 , 这 里 使 用 的 参数 
Qa 和 参数 8 为 经 验 值 。 默认 情况 a = 0.1, B = 1, 即 强调 目标 区 域 的 分 类 判断 对 最 终 检 
测 结 果 的 影响 程度 是 位 置信 息 误差 的 10 倍 。 从 TensorBox 源码 文件 train.py 中 的 
build forward backward 函数 可 知 损失 函数 中 的 分 类 信息 由 张 量 confidences_loss 表示 ， 
位 置信 息 由 张 量 boxes loss 表示 。 其中, confidences loss 是 由 分 类 置信 度 带 入 到 函数 
tfnn.sparse softmax cross entropy with logits 获取 的 。 通 过 查找 TensorFlow 的 源码 关 
键 字 ,可 在 文件 tensorflow\core\kernels\xent_op.h 了 解 到 其 具体 实现 如 以 上 公式 所 示 。 


在 程序 实现 中 , 初始 时 图 像 编码 神经 网 络 会 填 入 预先 训练 好 的 模型 参数 , 高 层 自 
定义 网 络 层次 使 用 均值 为 0 且 方差 较 小 的 初始 权 , 以 此 确保 网 络 在 初始 训练 时 是 易于 
优化 的 ， 不 易 陷 入 局 部 最 优 解 中 。 


TensorBox 中 并 没有 采用 一 些 非 均 衡 数据 的 优化 处 理 方法 。 而 在 Faster R-CNN 的 
训练 过 程 中 对 batch 包 的 数据 正 负 样本 比例 进行 了 1:1 调整 。 这 避免 了 负 样 本 类 型 过 
多 造成 的 非 均衡 数据 训练 问题 。 因 后 续 实 验 中 采用 的 实验 数据 正 样 本 几乎 存在 于 每 张 
图 像 中 , 所 以 不 存在 较 严 重 的 非 均衡 数据 问题 。 当 使 用 TensorBox 训练 一 些 正 样本 标 
记 较 少 的 样本 时 ， 应 考虑 添加 非 均衡 数据 的 优化 操作 。 
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6 CNN+LSTM 看 图 说 话 


检测 后 处 理 


Relnspect 算法 使 用 循环 LSTM 网 络 结构 令 单 个 网 格 单元 产生 多 个 序列 特征 ， 并 
以 此 特征 序列 对 遮挡 目标 进行 检测 。 然而， 相 邻 的 网 格 特征 因 感知 域 范围 存在 重 香 部 
Ay, 直接 使 用 样本 预 处 理 获取 的 网 格 标签 训练 循环 LSTM 网 络 同样 会 产生 宛 余 的 检 
测 结果 。 即 使 利用 LSTM 网 络 特 征 获取 了 遮挡 目标 检测 结果 ， 仍然 可 能 存在 元 余 的 
检测 结果 。 如 果 使 用 传统 的 置信 度 排 序 与 重 矢 判 断 等 后 处 理 方法 来 去 除 元 余 检测 |， 那 
么 利用 LSTM 网 络 特征 检测 获取 的 记 挡 目标 将 同样 被 认为 是 宛 余 检测 而 被 移 除 。 因 
此 ， 一 方面 我 们 期 望 相同 网 格 产生 的 LSTM 网 络 特征 能 够 正确 地 反映 遮挡 目标 的 特 
征 信息 ， 员 _ 方 面 我 们 同样 期 望 能 够 移 除 相 邻 网 格 特征 产生 的 郊 余 检测 结果 。 针对 网 
阁 检测 结果 分 组 的 重复 检测 移 除 后 处 理 算法 很 好 地 解决 了 这 一 问题 。 








虽然 使 用 Wu meli sae e HE TTS ELEGIR 但 是 , 相 
邻 网 格 的 感知 域 是 存在 重 登 部 分 的 ， 也 就 是 说 相 邻 网 格 的 检测 结果 中 是 存在 目标 重复 
检测 的 。 因此 ， 网 格 检测 完毕 后 还 需要 后 处 理 算法 移 除 网 格 间 的 重复 检测 结果 ， 同时 
还 要 保留 遮挡 目标 的 检测 结果 。ReInspect 算法 使 用 的 后 处 理 是 基于 网 格 进行 处 理 的 。 
如 图 6.4 所 示 ， 若 两 重 番 检 测 结果 来 自 相同 网 格 ， 则 同时 保留 。 EMEAOMARK 
Ro 








6-4 Relnspect 算法 后 处 理 示意 图 


另外 , 为 了 保留 重 普 目标 检测 结 采 ， 单 次 移 除 操作 中 一 个 网 格 检测 结果 最 多 只 能 
移 除 一 个 来 自 另 一 个 网 格 的 重合 检测 结果 。 考虑 到 一 个 检测 结果 可 能 会 与 多 个 不 同 网 
将 的 检测 结果 重 双 ,检测 后 处 理 方法 再 一 次 使 用 了 匈牙利 算法 实现 了 不 同 网 格 重复 检 
测 结果 的 移 除 。 考虑 到 同一 目标 可 能 出 现 多 次 重复 检测 ， 后 处 理 算法 采用 了 置信 度 分 
段 的 方式 对 检测 结果 进行 了 多 次 匹配 移 除 。 
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关于 检测 后 处 理 方面 的 具体 实现 ， 可 以 通过 查看 TensorBox 源码 文件 
utils/stitch wrapper.pyx 做 进一步 了 解 。 从 函数 stictch_rects 中 的 列表 变量 thresholds 
可 查看 知 置信 度 分 段 的 含义 。 每 一 个 列表 元 素 由 一 个 二 元 的 元 组 组 成 。 元 组 的 两 个 值 
分 别 表 示 当 前 参与 匹配 移 除 的 检测 目标 最 小 置信 度 , 另 一 个 表示 确保 加 入 到 检测 结果 
的 最 大 置信 度 值 。 使 用 这 种 后 处 理 方式 ,能 够 有 效 地 移 除 置 信 度 差异 较 大 的 重复 检测 ， 
同时 亦 可 保留 置信 度 相当 的 遮挡 目标 。 


6.1.4 Relnspect 算法 的 实验 数据 与 结论 
评估 标准 与 实验 数据 


Relnspect 论文 原文 中 使 用 了 两 个 数据 集 进 行 对 比 实 验 。 其 中 一 个 数据 集 是 作者 
使 用 固定 网 络 摄像 机 拍摄 的 室内 场景 剪辑 生成 。 该 数据 集 是 一 个 较 密集 人 和 群 组 成 的 室 
内 场景 ， 名 为 Brainwash。 以 视频 的 方式 可 以 收集 相当 数量 的 图 像 数据 。 使 用 这 种 方 
式 能 够 确保 算法 的 实现 不 会 受到 训练 数据 集 过 小 的 限制 。 另 一 个 实验 数据 集 使 用 的 是 
公开 数据 集 TUD-Crossing”*。 对 比 实验 使 用 相同 的 参数 在 这 两 个 不 同 的 数据 集 上 进行 
测试 。 

Brainwash 数据 集中 收集 了 11917 张 共计 标记 了 91146 个 人 头 样本 的 真 值 图 像 。 
收集 的 图 像 数据 是 以 100 秒 为 间隔 从 视频 中 抽取 的 。 测 试 集 和 验证 集 图 像 各 占有 1000 
张 , 余下 的 图 像 被 用 于 训练 。 训 练 集 与 测试 集 是 不 存在 相同 样本 的 。 整 个 训练 集合 共 
有 82906 个 检测 目标 样本 实例 。 测试 集 和 验证 集 各 含有 4922 和 3318 个 样本 实例 。 
像样 本 是 通过 Amazon MechanicalTurk” 网 站 发 起 任务 并 有 少量 的 操作 人 员 参 照 指 定 
规范 完成 的 。 该 数据 集 对 人 物 的 头 部 进行 标注 是 为 了 避免 目标 外 包 和 矩 形 任意 比例 的 变 
化 , 避免 引起 标注 歧义 。 标 注 的 头 部 目标 区 域 是 以 人 眼 可 辨识 为 准则 进行 标注 的 , BD 
使 目标 遮挡 相当 严重 。 收 集 的 图 像 如 图 6-5、 图 6-6 所 示 。Brainwash 数据 集 对 应 的 检 
测 问题 是 一 个 含有 小 目标 、 部 分 遮挡 、 多 尺度 变换 、 衣 着 和 容貌 等 挑战 的 图 像 检测 问 
题 。 


实验 部 分 还 包括 了 TUD-Crossing 数据 集 上 的 对 比 测试 。 该 数据 集 图 像 记录 的 是 





36 https://motchallenge.net/vis/TUD-Crossingo 
37 Amazon Mechanical Turk 是 一 个 互联 网 工作 分 发 媒介 平台 。 
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6 CNN+LSTM 看 图 说 话 


人 流量 较 的 大 街道 ， 并 已 用 于 遮挡 目标 检测 问题 的 算法 验证 。 因 为 TUD-Crossing 数 
据 集 不 含有 独立 的 训练 集 *， 实 验 是 在 TUD-Brussels 数据 集 上 进行 训练 的 。 原 始 的 
TUD-Crossing 数据 集 真 值 标 记 中 并 不 含有 严重 遮挡 的 行人 目标 。 为 了 更 好 地 评估 不 
同方 法 在 遮挡 目标 检测 问题 中 的 性 能 , 实验 对 真 值 进行 了 扩展 , 使 用 了 全 部 的 行人 标 
记 。 从 原 有 的 1008 个 行人 目标 增长 至 1530 个 行人 目标 。 


目标 检测 成 功 的 评判 标准 是 检测 位 置 与 真 值 信息 重 番 比 例 大 于 0.5。 评 估 标 准 包 
括 目标 检测 准确 率 、 召 回 率 、 单 张 图 像 检测 目标 数量 方差 等 。Brainwash 数据 集 和 
TUD-Crossing 数据 集 它 们 都 是 存在 目标 遮挡 的 图 像 检测 数据 集 。 其 中 , TUD-Crossing 
数据 集 的 遮挡 情况 更 加 严重 ， 如 图 6-6 所 示 。 














对 比方 法 与 性 能 评估 


实验 对 比 了 Faste-RCNN 算法 和 OverFeat 算法 。 其 中 Faster-RCNN 算法 使 用 的 
是 VGGNet19 网 格 图 像 编 码 ， 而 OverFeat 算法 与 ReInspect 算法 都 采用 相同 参数 的 
GoogLeNet 网 格 图 像 编码 。 
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6-5 Brainwash 数据 集 实验 检测 结 
表示 的 是 ReInspect 算法 的 检测 结果 


38 TUD-Brussel 数据 集 与 TUD-Crossing 数据 集 相同 的 部 分 图 像 已 在 训练 时 移 除 。 早 前 算法 
的 对 比 实验 可 参阅 本 章 参 考 资料 [4, 18, 19]。 
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图 6-6 TUD-Crossing 数据 集 行人 目标 检测 例 图 。 中 间 一 行 和 最 下 行 的 图 像 分 别 表示 t = 0.75 时 的 Faster 
R-CNN 算法 和 ReInspect 算法 的 检测 结果 。ReInspect 算法 的 检测 精度 达到 了 90%。 最 上 行 两 张 图 像 表 示 
Faster R-CNN 算法 得 出 的 所 有 未 经 过 后 处 理 的 候选 检测 区 域 


对 于 TUD-Crossing 数据 集 , 相 较 于 OverFeat 算法 ，ReInspect 算法 显现 出 了 较 大 
的 性 能 提升 ， 召 回 率 从 71% 提 升 至 81%。 另 外 ，ReInspect 算法 的 整体 精度 也 得 到 了 
提升 。ReInspect 算法 的 整体 精度 为 0.78， 而 OverFeat 算法 的 整体 精度 为 0.67。 单 张 
图 像 的 人 体 计数 误差 分 别 是 0.76 和 1.05。Brainwash 数据 集 的 实验 结果 同样 呈现 了 类 
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似 的 结论 ，ReInspect 算法 明显 优 于 OverFeat 算法 。 


图 6-5 显示 了 OverFeat 算法 和 Relnspect 算法 在 Brainwash 数据 集中 的 检测 结果 
例 图 。ReInspect 算法 能 够 检测 出 遮挡 比较 严重 的 头像 ， 而 OverFeat 算法 则 对 此 无 能 
为 力 。 因 此 ，ReInspect 算法 整体 上 要 优 于 OverFeat 算法 。 


图 6-6 显示 了 Faster R-CNN 算法 与 ReInspect 算法 的 检测 示例 结果 。Faster R-CNN 
算法 后 处 理 操作 的 重 每 比例 阔 值 参数 (* e [0,1]) 对 算法 的 性 能 评估 有 非常 大 的 影响 。 
仅 当 候选 检测 结果 重音 面积 比例 大 于 + 时 会 执行 移 除 元 余 重复 检测 的 操作 。 实 验 部 分 
包括 (0.25 05 0.75) 三 个 不 同 的 阔 值 参数 设置 。 在 TUD-Crossing 数据 集中 
Relnspect 算法 的 性 能 表现 要 好 于 所 有 参数 设置 的 Faster R-CNN 算法 。 对 于 
TUD-Crossing 数据 集 ， 当 Tt = 0.75 时 ，Faster R-CNN 算法 可 能 会 对 同一 目标 产生 宛 余 
的 检测 结果 。 当 t = 0.25 设 置 较 小 时 ， 宛 余 检 测 会 被 移 除 ， 但 会 造成 较 多 的 遮挡 目标 
漏 检测 。 


Brainwash 数据 集 大 部 分 目标 的 遮挡 程度 都 小 于 TUD-Crossing 数据 集 。Brainwash 
数据 集 的 测试 结果 表明 ， 仅 当 r = 0.5 参 数 设置 的 Faster R-CNN 算法 性 能 略 优 于 
Relnspect 算法 。 因 为 Faster R-CNN 算法 使 用 了 多 个 基于 锚 点 的 子 窗口 增强 了 目标 检 
测 召 回 率 ， 而 Relnspect 算法 仅 对 单个 网 格 特征 进行 分 类 预测 计算 。 使 用 插值 网 格 缩 
放 特 征 后 , ReInspect 算法 能 够 使 网 格 特征 描述 能 力 更 强 , 从 而 进一步 提升 检测 性 能 。 
此 时 ，ReInspect 算法 性 能 将 整体 优 于 Faster R-CNN 算法 。 在 上 一 节 的 “GoogLeNet 
网 格 图 像 编码 ”内 容 中 对 缩放 特征 有 简单 的 介绍 ， 这 里 不 再 复述 ”。 








对 于 尺寸 为 320x240 大 小 的 三 通道 图 像 ，TensorBox 中 实现 的 ReInspect 算法 在 
较 好 的 GPU 设备 上 运行 速率 达到 了 15 张 / 秒 。TensorBox 为 图 像 检测 提供 了 一 套 完整 
的 解决 方案 ， 稍 作 修 改 该 系统 亦 可 用 于 图 像 分 类 与 图 像 识 别 。 


6.2 CNN+LSTM 网 络 模型 与 图 像 摘 要 问题 


让 计算 机 用 文字 来 描述 一 张 图 像 的 内 容 , 是 计算 机 视觉 与 自然 语言 处 理 的 一 项 综 
合 问题 。 使 用 深度 学 习 技术 中 的 CNN 神经 网 络 和 LSTM 循环 神经 网 络 将 计算 机 视觉 


39 关于 缩放 特征 的 详细 描述 可 查阅 本 章 参考 资料 [7]。 
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技术 与 机 器 翻译 技术 相 结 合 就 可 以 实现 图 像 摘要 系统 。 图 像 摘要 系统 的 优化 问题 也 就 
是 图 像 内 容 至 目 标 文字 内 容 描述 的 映射 转换 问题 。 论文 Show and Tell: Lessons learned 
from the 2015 MSCOCO Image CaptioningChallenge 实现 了 一 种 基于 TensorFlow 的 图 
像 摘 要 系统 ， 称 为 NIC (Neural Image Caption) 算法 。 该 算法 曾 在 2015 年 举行 的 
MSCOCO 图 像 摘要 竞赛 "中 取得 了 最 好 成 绩 ,不 仅 在 对 图 像 内 容 判 断 的 准确 性 方面 ， 
还 在 文字 描述 的 流畅 性 方面 ， 都 表现 出 了 不 亚 于 人 类 的 图 像 描述 能 力 。 


6.2.1 图 像 摘 要 问题 


图 像 摘要 算法 是 让 计算 机 自动 对 图 像 产生 文字 描述 的 程序 。 描 述 的 文字 可 以 是 英 
文 、 俄 文 、 中 文 等 ,这 只 取决 于 程序 的 训练 数据 。 问 题 的 主要 研究 内 容 包 括 图 像 识别 
和 自然 语言 处 理 两 个 方面 ,一 方面 需要 实现 对 图 像 内 容 的 准确 提取 , 另 一 方面 还 需要 
实现 对 图 像 内 容 的 恰当 文字 转换 。 其 中 , 图 像 内 容 的 准确 提取 包括 图 像 目标 的 类 型 特 
征 、 场 景 类 型 特征 、 颜 色 特征 、 位 置 特征 、 大 小 特征 等 ， 而 图 像 内 容 的 文字 转换 则 需 
要 自动 映射 图 像 内 容 特 征 与 文字 特征 的 关系 。 


早 前 的 图 像 摘要 算法 往往 包括 多 个 集成 模块 , 例如 图 像 目 标 检测 、 目 标 外 观 属性 
提取 、 位 置信 息 提取 、 关 联 分 析 、 候 选单 词 预 测 、 描 述 语句 生成 等 。 这 些 模块 都 对 
像 摘要 的 描述 内 容 起 到 了 关键 作用 。 对 于 这 些 方法 , 图 像 描述 的 内 容 对 象 只 可 能 是 图 
像 检测 模块 的 输出 结果 ,而 对 物体 外 观 、 位 置 等 信息 的 描述 , 则 都 需要 根据 人 工 设 定 
的 语言 逻辑 先 验 信息 来 得 到 ,这 限制 了 描述 语言 的 丰富 程度 。 而 Oriol Vinyals 等 提出 
的 NIC 算法 使 用 深度 学 习 技 术 一 并 解决 了 这 些 问 题 。 该 方法 使 用 inception_v3 网 络 模 
型 统一 提取 图 像 高 维特 征 , 然后 , 使 用 LSTM 网 络 结构 实现 对 图 像 描述 语句 的 优化 。 


简单 来 说 ， 图 像 摘要 问题 的 求解 过 程 可 以 理解 为 一 种 概率 联合 分 布 的 转换 模型 。 
对 于 图 像 I 和 其 对 应 的 描述 文本 [Sweom, Su Si .Sena]， 训 练 的 目标 为 图 像 摘要 的 最 
大 概率 密度 函数 PCSoeoin, Su .…, Senal/)。 在 深度 学 习 领 域 ， 对 于 序列 联合 概率 密度 优 
化 问题 早已 在 机 器 翻译 中 使 用 。 对 于 原 语言 序列 表示 [Sbegin, Su -Su -Sena ABRA 
言 序列 表示 [75egin, Ty,.…Ti,.…Tena] ， 机 器 翻译 的 训练 任务 就 是 使 联合 概率 模型 的 
P(Tyegin, Ty Ti TenalSpegin: Sy, Si, Sena JABAL. Atk, 与 早期 图 像 摘要 算 
法 类 似 ， 早 前 的 机 器 翻译 算法 同样 由 多 个 模块 构成 ( 例如 包括 : 单个 单词 翻译 转换 、 


40 http://mscoco.org/dataset/#captions-challenge2015。 
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单词 位 置 对 齐 、 语 言 组 织 排序 等 )。 而 近年 来 循环 神经 网 络 在 机 器 翻译 方面 的 研究 和 
应 用 已 表明 ， 使 用 循环 网 络 能 够 更 好 地 解决 该 问题 。 尤 其 以 Encoder-Decoder 结构 的 
网 络 效果 最 为 优秀 。 


借鉴 机 器 翻译 算法 采用 的 思路 ,NIC 算法 使 用 深度 图 像 卷 积 网 络 inception_v3 fF 
为 图 像 内 容 的 编码 器 ， 同 时 使 用 LSTM 网 络 作为 对 图 像 编 码 内 容 生 成 文字 描述 的 解 
码 器 ， 这 就 为 图 像 摘要 问题 提供 了 一 种 整体 的 解决 方案 ,并 通过 MSCOCO 竞赛 结果 
验证 了 该 方法 的 可 靠 性 。 


6.2.2 NIC 图 像 摘 要 生成 算法 


NIC 算法 为 图 像 摘 要 系统 提供 了 一 个 基于 深度 学 习 的 统一 框架 解决 方案 。 首 先 ， 
该 方法 将 图 像 摘要 问题 抽象 化 为 一 个 数字 优化 问题 ， 如 下 所 示 : 


0* — argmaxg > logP(S|I, 8) 
(LS) 


其 中 ，69 表 示 深 度 神经 网 络 的 模型 参数 ，! 表 示 图 像 数 据 ，5 表 示 由 单词 序列 构成 
的 理想 文字 描述 语句 。 考 虑 到 $ 可 以 表示 为 任意 的 描述 语句 ， 对 3 表示 的 语句 长 度 没 
有 限制 。 因 此 , 可 以 将 该 问题 进一步 转换 为 使 用 链 式 法 则 求解 单个 单词 的 最 大 联合 概 
率 密度 。 


N 
1 
logP(S|I, 0) = x2, logP (Sell, 8, Sor» St-1) 
t=0 


在 训练 时 ，(S, 门 构成 训练 样本 的 基本 单元 。 整 个 训练 过 程 就 是 上 述 公式 最 大 值 
的 优化 过 程 。 联 合 概率 分 布 logP(Sel1 8, So …St-1) 可 以 很 容易 地 借助 循环 神经 网 络 隐 
含 状态 层 h. 模 拟 实现 。 在 网 络 模型 内 部 隐 含 状态 层 h 由 输入 数据 x.-1、 上 一 时 刻 状态 
Bh ARE, WATE: 


hy = f(hh-x) 


使 用 循环 网 络 衔接 了 模型 优化 的 两 个 关键 问题 ,一 个 是 可 以 自 定义 非 线性 隐 层 转 
换 函 数 FChe_v xt) ， 另 一 个 是 可 将 图 像 信息 和 文字 信息 以 序列 形式 同时 组 合 形成 输入 
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数据 x。。NIC 算法 使 用 LSTM 循环 网 络 作 为 隐 层 的 变换 网 络 。 输入 数据 由 原始 图 像 的 
特征 和 描述 文本 的 词 向 量 组 合 而 成 。 其 中 图 像 特征 由 inception_v3 网 络 处 理 得 到 , X 
本 词 向 量 则 要 通过 单词 向 量化 方法 获得 。 单词 向 量化 是 一 种 无 监督 学 习 , 其 目标 是 将 
每 一 个 单词 都 转换 为 向 量 表示 ， 并 且 语 义 越 接近 的 单词 的 向 量 距离 越 近 。 


由 上 一 章 对 循环 神经 网 络 的 介绍 可 知 ,普通 RNN 在 序列 数据 的 级 联 优化 问题 时 ， 
会 涉及 反 向 传播 梯度 消失 和 梯度 爆炸 的 关键 问题 ， 而 LSTM 结构 是 解决 这 一 问题 的 
良药 。 因 此 ，NIC 算法 中 使 用 LSTM 循环 网 络 作为 摘要 文本 的 输出 模型 ， 如 图 6-7 
所 示 。 


由 公式 logP(Se|1 8, Sos … St-1) 可 知 ， 在 输入 图 像 和 单词 序列 后 LSTM 网 络 即 可 
实现 模型 的 训练 或 预测 。 动 态 LSTM 循环 网 络 很 好 地 利用 了 LSTM 网 络 的 特性 。 即 
通过 记忆 单元 的 存储 、 更 新 策略 ， 最 大 化 拟 合 图 像 内 容 和 描述 文字 的 关联 性 ， 以 及 单 
词 之 间 的 语法 规则 。 将 循环 网 络 展开 ， 可 以 理解 为 对 LSTM 网 络 的 动态 循环 使 用 。 
6-7 中 的 LSTM 网 络 都 使 用 相同 的 模型 参数 。 具 体 来 说 ， 令 图 像 数 据 表 示 为 1， 对 
应 的 描述 语句 单词 序列 表示 为 (So …,Sw)， 则 预测 单词 按照 如 下 公式 进行 


x_i = CNN(/) 
x, = W,Sp,t € {0,1,..,N — 1) 
Pray = LSTM(x¢), t € (0,11, ., N — 1) 


其 中 , CNN 泛 指 图 像 数据 的 深度 卷 积 网 络 , NIC 算法 使 用 inception v3 网 络 。 
像 特征 x_i 作为 -1 时 刻 的 LSTM 网 络 数据 输入 。 如 前 文 所 说 ，So 和 5Sw 分 别 表 示 描 述 语 
名 的 开始 和 结束 标记 。0 时 刻 的 数据 输入 为 语句 开始 标记 WS。 特 征 。S, 表 示 由 {0,1} 
元 素 组 成 的 类 型 标签 向 量 。5t 的 长 度 为 单词 集合 的 总 是 |W|, 且 仅 有 一 个 非 零 元素 。W 
表示 尺寸 为 [IWl, @] 的 二 维 矩 阵 ， 其 中 Q 表示 单词 向 量 的 长 度 。 图 6-7 中 咯 去 了 初始 
时 的 LSTM 全 零 状态 向 量 和 最 后 的 描述 结束 符 标记 Sw。 图 像 特征 和 单词 向 量 特征 都 
映射 到 相同 的 特征 空间 中 。 图 像 原 数据 仅 在 网 络 中 的 t = -1 时 输入 1 次 作为 LSTM 
网 络 最 开始 的 输入 数据 。 实 践 表 明 , 在 图 6-7 中 不 同 的 时 间 节 点 多 次 导入 图 像 特 征 向 
量 只 会 降低 算法 的 整体 预测 精度 。 这 容易 使 网 络 产生 更 多 的 图 像 特 征 噪声 旦 容易 使 模 
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型 过 拟 合 。 整 体 模型 的 优化 参数 由 LSTM 网 络 参数 、 图 像 深 度 神经 网 络 特征 参数 和 
单词 向 量化 参数 共同 组 成 。 





us so| 图 [s] 


图 6-7 NIC 图 像 摘要 算法 流程 图 。LSTM 循环 网 络 将 图 像 向 量化 特征 与 单词 向 
量化 特征 联系 在 一 起 。 图 中 为 LSTM 循环 网 络 的 展开 形式 。 蓝 色 箭 头 表示 循环 网 络 
的 数据 流向 。 需 要 注意 的 是 ， 图 中 所 有 标记 的 LSTM 网 络 使 用 的 都 是 相同 的 参数 。 
图 中 咯 去 了 初始 时 的 LSTM 全 零 状 态 向 量 和 最 后 的 描述 结束 符 标记 Sw。t 时 刻 的 
LSTM 网 络 状态 为 <1 时 刻 LSTM 网 络 的 输出 


N 
1 
logP(S|I, 8) = x». logP(S; l1, 8, Soy es St-1) 
t=0 


TensorFlow 内 部 实现 了 多 种 不 同类 型 的 LSTM 循环 网 络 结构 。 在 上 一 章 对 这 部 
分 内 容 有 较 详 细 的 描述 。 为 了 不 引起 混淆 ， 这 里 补充 说 明 LSTM 网 络 循环 策略 的 多 
种 不 同形 式 。 如 图 6-8 所 示 , HOST 4 种 不 同 的 LSTM 网 络 循环 方式 。 其 中 , 图 6-8(a) 
表示 LSTM 网 络 的 自 循环 神经 网 络 结构 。 该 结构 也 是 NIC 算法 采用 的 循环 形式 。 上 1 
时 刻 的 LSTM 网 络 输出 将 再 次 作为 上 时 刻 的 输入 进入 LSTM 网 络 。 对 于 每 一 个 输 
序列 ，LSTM 网 络 将 自动 更 新 内 部 记忆 单元 。 该 结构 的 特点 是 参数 较 少 ， 整 个 循环 体 
仅 有 一 个 LSTM 网 络 参 数 且 对 输入 数据 的 变换 仅 通过 LSTM 网 络 内 部 的 记忆 单元 和 
模型 参数 控制 。 图 6-8(b) 表 示 多 个 串联 的 LSTM 网 络 的 自 循环 神经 网 络 。 与 图 6-8(a) 
不 同 ， 该 结构 的 循环 网 络 包含 多 个 独立 的 LSTM 单元 网 络 。 这 些 单元 内 部 的 LSTM 
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网 络 参数 仅 在 循环 内 部 共享 。 这 种 循环 模式 的 网 络 结构 参数 更 多 训练 更 复杂 , 能 够 表 
征 更 复杂 的 模型 函数 ， 需 要 的 样本 也 更 多 。 图 6-8(c) 表 示 基 于 LSTM 的 RNN 循环 网 
| 络 。 其 结构 示意 图 如 图 6-9 右 图 所 示 。 图 6-9 左 图 显示 的 是 最 基础 的 LSTM 网 络 实现 ， 
| 对 应 于 TensorFlow 中 BasicLSTMCell 类 的 实现 。 图 6-9 左 图 与 右 图 相 比 较 的 主要 区 


别 在 于 对 输出 层 维 数 的 控制 以 及 网 络 参数 的 差异 。 ME 6-3 中 可 以 看 出 这 两 种 网 络 的 

计算 差异 。 

[impo] [Gm] [CE 
EI, 

(a) 

[sw] [ES 


LSTM 
[mm] eme [o 


(d) DLSTMP 


图 6-8 LSTM 网 络 循环 策略 示意 图 


表 6-3 标准 LSTM 网 络 与 LSTM RNN 网 络 计算 公式 






ip = Sigm(Wizxe + Wimme-1 + bi) 
人 = Sigm(W7rzxe + Wrmmme-i 十 by) 








Or = sigm(Woxxe + Womme-1 + bo) 
€ = fie, + i Oh(Wexrxe + Wemme_1) 
m, = o, Oct 


Pe+1 = Softmax(m,) 










LSTM RNN ip = sigm(Wix, + Wirre_1 + bi) 
fe = sigm(W;,x, + Wryre-i + by) 
Ot = sigm(Woxxe + Worre-1 + bo) 
Ce = frOee—s + íLORh(W ux, + Werte-1) 
m, = 0cOct 
re = Wim, 
Pe+1 = Softmax(Wssr,) 
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# 6-3 中 的 LSTM 网 络 计算 公式 在 上 一 章 中 已 经 说 明 。 这 里 补充 说 明 LSTM RNN 
网 络 的 计算 公式 。 该 网 络 结构 是 在 LSTM 网 络 基础 上 新 加 了 一 个 全 连接 层 ， 并 将 连 
接 结果 重新 导入 到 LSTM 网 络 中 。 这 一 操作 令 网 络 的 模型 参数 数量 发 生 了 变化 。 忽 
咯 全 连接 层 的 偏 移 量 ， 标 准 LSTM 网 络 的 参数 为 N= Nex NX 4 NX Nx 4 
No X Nc + Ne X 3, 而 LSTM RNN 网 络 的 参数 为 N = Ne x N, X 4 N, X Ne X 4 No X 
Nr 十 Ne XN, +N, x 3。 由 此 可 知 ， 在 模型 参数 总 数量 不 变 的 情况 下 ,LSTM RNN 网 
络 可 设置 N. < N。 增 加 记忆 单元 的 维 数 ， 实 践 表明 在 参数 数量 相同 的 情况 下 LSTM 
RNN 网 络 的 性 能 整体 要 优 于 LSTM 网 络 ”。 


LSTM RNN 神经 网 络 是 关于 LSTM 网 络 的 改进 版 本 。 在 TensorFlow AXBT AJA 
数 raw mn 实现 。NIC 算法 没有 使 用 LSTM RNN 神经 网 络 ， 而 是 使 用 标准 的 LSTM 
神经 网 络 。 它 的 自 循环 方式 为 如 图 6-8(a) 所 示 的 标准 LSTM 循环 模式 。 


word prediction 








图 6-9 左 图 为 LSTM 循环 网 络 结构 示意 图 。 右 图 为 LSTM RNN 循环 网 络 结构 示意 图 ， 其 中 网 络 的 循环 连 

接 部 分 由 蓝 色 标 出 。t-1 时 刻 的 LSTM 网 络 的 输出 将 作用 于 + 时刻 的 LSTM 网 络 的 输入 。 训 练 时 ， 网 络 的 

循环 次 数 由 外 部 调用 函数 根据 输入 语句 序列 的 长 度 控制 。 预 测 时 ,网 络 的 循环 次 数 由 训练 时 的 最 大 循环 次 
数 和 终止 符号 预测 结果 共同 决定 


使 用 NIC 算法 有 两 种 不 同 的 单词 序列 生成 方式 。 第 一 种 称 为 采样 方式 ， 可 以 根 
HEP (S, |L 6, So, .…, St_1) 的 概率 采样 生成 1 时 刻 的 单词 ,而 后 再 根据 P(Se41|1,9, So …, Se) 


41 参见 本 章 参 考 资料 [27]。 
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的 概率 采样 生成 cel 时 刻 的 单词 。 直 至 生成 结束 符 标记 Sw 或 者 达到 语句 的 最 大 长 度 。 
男 一 种 是 优化 搜索 方法 , 在 :时 刻 考虑 该 时 刻 联合 置信 度 最 大 的 上 种 单词 序列 生成 结 
果 ， 基 于 这 些 结果 再 往 后 预测 +1 时 刻 的 置信 度 最 大 的 种 单词 序列 生成 结果 。NIC 
算法 内 部 实现 如 表 6-4 所 示 。 


表 6-4 NIC 算法 内 部 实现 


训练 阶段 


使 用 TFRecordReader 读 取 的 训练 数据 
使 用 InceptionV3 网 络 特征 , 创建 全 连接 
层 抽 取 特 征 
创建 方差 较 小 的 随机 二 维和 矩阵 
定义 模型 模型 结 
序列 单词 


me 创建 基于 LSTM 的 动态 循环 网 络 
神经 网 络 的 运行 运行 损失 函数 优化 操作 运行 单词 预测 操作 并 搜索 返回 最 优 
= SANY j 


6.2.3 NIC 图 像 摘 要 生成 算法 实现 说 明 


在 开始 NIC 算法 的 调试 前 , 除了 TensorFlow 和 NumPy， 需 要 安装 下 列 相 关 软 件 
和 了 Python 包 。 














预测 阶段 
使 用 Tensor 占 位 符 
PEM InceptionV3 网 络 特征 和 全 连接 
层 抽取 特征 
从 模型 文件 中 读 取 训练 结果 
创建 单个 LSTM 网 络 依次 预测 单个 









数据 输入 及 准备 









图 像 向 最 化 
















单词 向 量化 














。 Bazel: 它 是 Google 的 一 款 可 再 生 的 代码 构建 工具 。 在 本 例 中 负责 完成 对 
Python 脚本 的 程序 化 封装 。 使 脚本 能 够 按照 多 进程 方式 运行 。 

* Natural Language Toolkit (NLTK): 它 是 一 个 基于 python 语言 的 自然 语言 处 理工 
具 包 。 


本 例 中 并 没有 使 用 Bazel 和 NLTK 太 多 复杂 功能 。 使 用 md 文件 阅读 器 打开 
README.md 文件 可 知 本 例 中 如 何 使 用 Bazel 对 Python 脚本 进行 封装 。 从 编辑 结果 
可 知 ，Bazel 生成 的 Python 编译 结果 实际 上 只 是 对 Python 脚本 程序 的 进程 调用 。 在 
Ubuntu 系统 下 ， 进 入 项 目 主 目录 ,输入 以 下 脚本 指令 即 可 实现 对 数据 预 处 理 、 训 练 
和 预测 脚本 的 进程 封装 。 关 于 Bazel 的 封装 选项 可 查看 对 应 目录 下 的 build 文件 。 详 
细 用 法 请 查阅 Bazel 教程 。 新 生成 的 封装 结果 都 将 在 bazel-bin/im2txt 目录 下 。 


bazel build im2txt/downloadandpreprocess mscoco 
bazel build -c opt im2txt/... 
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bazel build -c opt im2txt/run_inference 


TE NIC 算法 的 TensorFlow 实现 版 本 中 用 到 了 NLTK (Natural Language Toolkit) É 
然 语 言 Python 工具 包 。 使 用 该 工具 包 的 主要 目的 是 实现 对 样本 描述 语句 单词 与 标点 
符号 的 自动 拆 分 。 如 下 代码 所 示 ，caption 是 原始 图 像 数据 的 描述 语句 字符 串 ， 且 
caption 由 单词 与 标点 符号 组 成 。 


import nltk.tokenize 


def process caption (caption): 
"""Processes a caption string into a list of tonenized words. 


Args: 
caption: A string caption. 


Returns: 
A list of strings; the tokenized caption. 


tokenized caption = [(FLAGS.start word] 


tokenized caption.extend(nltk.tokenize.word tokenize(caption.lower( 
9S tokenized caption.append(FLAGS.end word) 
return tokenized caption 

由 此 可 见 ,无论 是 Bazel 或 是 NLTK 工具 包 对 NIC 算法 的 实现 都 没有 起 到 太 大 作 
用 。 因 此, 本 节 后 续 内 容 将 不 再 对 这 两 个 依赖 部 分 进行 说 明 。 实 际 上 从 算法 原理 上 来 
看 ，NIC 算法 中 最 复杂 的 部 分 是 LSTM 网 络 的 构建 。 但 从 实际 的 程序 实现 和 运行 效 
果 上 来 看 ,最 开始 的 数据 处 理 程序 比 模型 构建 程序 要 复杂 得 多 且 对 最 终 的 训练 效果 同 
样 起 到 非常 重要 的 影响 。 若 没有 前 期 的 数据 处 理 程序 为 深度 神经 网 络 快速 提供 大 量 多 
样 化 的 数据 , 整个 网 络 性 能 将 无 法 评估 。 因 此 有 必要 对 网 络 的 数据 输入 程序 部 分 引起 
足够 的 重视 。 对 于 大 数据 的 训练 问题 更 是 如 此 。 


输入 数据 及 准备 


使 用 Bazel 封装 好 NIC 算法 的 各 模块 后 ,还 需要 准备 训练 数据 。 在 第 3 章 曾 经 提 
到 过 ，TensorFlow 中 有 三 种 不 同 的 训练 数据 输入 方式 。 一 种 是 定义 占 位 符 , 在 运行 时 
输入 具体 数据 的 方式 。 这 种 方式 对 数据 处 理 比 较 灵活 , 适合 数据 量 适中 IO 读 写 不 太 
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频繁 的 情况 。 第 二 种 是 使 用 预选 加 载 的 数据 方式 。 这 种 方式 数据 加 载 方式 简单 ,数据 
输入 几乎 没有 VO 操作 。 适 合用 于 测试 网 络 结构 。 第 三 种 是 使 用 训练 文件 ， 这 种 方式 
专门 针对 大 数据 的 训练 ， 训 练 数 据 应 使 用 TensorFlow 指定 格式 保存 。TensorFlow 内 
部 已 对 这 种 情况 下 的 VO 操作 进行 了 优化 。 


大 数据 的 学 习 训练 是 深度 学 习 的 重要 特性 之 一 。 利用 数据 包 的 训练 机 制 , 深度 学 
习 算法 能 够 训练 上 百 、 上 千 GB 的 数据 。 然 而 ， 对 硬盘 数据 的 频繁 的 读 取 / 写 入 操作 
对 训练 算法 提出 了 新 的 问题 。 对 于 大 数据 上 百 万 次 的 读 取 / 写 入 操作 还 需要 有 专门 的 
算法 确保 数据 读 取 的 有 效 性 和 速度 。 对 此 ，TensorFlow 提供 了 专 有 的 训练 数据 读 取 / 
写 入 接口 ,tensorflow.TFRecordReader0 和 tensorflow.TFRecordWriter()。NIC 算法 同时 
使 用 了 这 两 个 函数 。 在 本 例 中 它们 都 是 使 用 tftrain.SequenceExample 对 象 实现 数据 的 
读 取 和 写 入 的 。 而 tf.train.SequenceExample 对 象 保存 的 是 变量 的 序列 化 结果 。 整 个 数 
据 处 理 过 程 如 表 6-5 所 示 。 因 模型 的 训练 需要 先 定义 结构 后 再 放 入 到 Session 中 运行 ， 
因此 数据 输入 端 同样 要 先 定义 为 模型 结构 图 的 组 成 部 分 ， 而 后 再 在 Session 中 运行 。 
这 是 通过 TensorFlow 的 队列 机 制 实现 的 。 函数 tf.train.queue_runner.QueueRunner 负责 
创建 队列 操作 。 函 数 tftrain.queue, runner.add queue runner 则 将 参数 队列 投入 到 指定 
的 Session 中 运行 。 本 节 的 后 续 内 容 将 以 NIC 算法 为 例 对 基于 tensorflow.TFRecord 格 
式 的 大 数据 使 用 方式 进行 详细 说 明 。 在 预测 时 , NIC 算法 能 够 对 单 张 输入 图 像 返 回 描 
述 语句 。 此 时 ,网 络 的 数据 输入 只 包含 图 像 数据 ， 且 是 按 占 位 符 的 方式 传 入 的 。 这 种 
数据 传 入 方式 前 文 已 经 描述 了 很 多 ， 这 里 不 再 复述 。 


表 6-5 NIC 算法 中 基于 TFRecord 格式 的 大 数据 准备 与 使 用 过 程 









转换 数据 写 入 TFRecord 过 程 
1， 读 取 全 部 原始 数据 的 摘要 信息 。 包 括 路 径 、 字 符 


训练 时 TFRecord 数据 使 用 过 程 
1. 使 用 tfgfile.Glob 函数 载 入 TFRecord 文件 文件 名 
列表 

2， 使 用 tftrain.string input producer 函数 创建 文件 
名 字符 捉 无 限 循环 队列 。 在 训练 过 程 中 ， 将 自动 加 
载 队列 中 的 文件 输入 样本 

3. 根据 线程 参数 , TensorFlow.TFRecordReader 对 象 
读 取 文 件 名 字符 串 队列 中 的 文件 。 使 用 tftrain. 
queue runner.QueueRunner 函数 定义 操作 , 将 读 取 的 
数据 文件 内 容 添 加 到 保存 数据 的 列表 对 象 中 。 再 使 
用 tftrain.queue_runner.add_queue_runner 函数 将 其 























2. 根据 训练 问题 和 原始 数据 集 的 大 小 , 重新 调整 训 
练 集 、 验 证 集 和 测试 集 的 比例 大 小 





3. 根据 写 入 数据 的 线程 数 ， 将 数据 集 ( 训练 集 、 验 
证 集 和 测试 集 执行 相同 操作 ) 的 样本 数 二 等 分 为 相 
同 大 小 的 数据 块 。 每 一 个 数据 块 由 单独 的 线程 负责 
写 入 数据 
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续 表 













转换 数据 写 入 TFRecord 过 程 训练 时 TFRecord 数据 使 用 过 程 


添加 到 当前 会 话 中 运行 ， 以 获取 
tf.train.SequenceExample 序列 化 数据 

4. 定 义 操 作 解 析 tf.train.SequenceExample 序列 化 数 
据 ， 并 对 单个 样本 数据 中 的 图 像 内 容 部 分 进行 随机 
调整 强化 训练 数据 的 多 样 性 

5. 跟 单个 样本 的 描述 语句 生成 序列 化 标签 。 使 用 
tf.train.batch join. 函数 定义 操作 将 单个 样本 文件 组 
合 构建 训练 用 的 batch 数据 包 传 入 训练 网 络 













4. 根 据 输 入 参数 ， 线 程 内 部 再 对 数据 块 细 分 为 固定 
大 小 的 分 块 ,并 准备 使 用 TensorFlow.TFRecordWriter 
对 象 将 单个 数据 样本 依次 写 入 TFRecord 文件 

5. 分 别 使 用 tftrain.FeatureList 和 tf.train.Feature 函 
数 对 样本 数据 进行 序列 化 操作 。 最 后 使 用 
tf.train.SequenceExample 构建 序列 化 样本 写 入 文件 








原始 的 Mscoco 图 像 摘要 竞赛 数据 集 为 20GB 大 小 的 数据 信息 压缩 包 。 每 张 图 
像 含有 5 种 不 同 的 描述 方式 。 为 了 最 大 化 训练 数据 的 输入 速度 并 确保 数据 读 取 的 有 效 
性 ， 训 练 程序 使 用 了 tensorflow.TFRecordReader() 和 线程 队列 的 方式 实现 数据 的 快速 
输入 。 因 此 ,训练 数据 需要 使 用 对 应 的 tensorflow. TFRecordWriter)EA23 5A «. 考虑 到 
这 种 数据 的 写 入 方式 要 求 图 像 数据 和 描述 语句 一 一 对 应 , 故 原始 MSCOCO 数据 解压 
后 每 张 图 像 数 据 按 照 其 描述 语句 的 次 数 被 重复 写 入 了 多 次 。 处 理 完毕 后 , 整体 训练 集 
的 大 小 为 120GB 左右 。 


另外 ,可 从 项 目 文件 im2txt\data\download_and_preprocess_mscoco.sh 中 了 解 到 原 
始 MSCOCO 数据 的 下 载 地 址 。 脚 本 程序 使 用 wget 命令 下 载 。 若 下 载 失 败 ， 可 改 用 
uget 等 专用 下 载 工具 下 载 获取 。 可 执行 如 下 语句 自动 转换 生成 训练 数据 集 。 


bazel-bin/im2txt/downloadandpreprocessmscoco "$(MSCOCODIR]" 


NIC 算法 的 模型 参数 由 LSTM 网 络 参数 、 图 像 深度 神经 网 络 特征 参数 和 单词 向 
量化 参数 共同 组 成 。 其 中 ， 单 词 向 量化 参数 的 总 数 占 总 体 参数 的 大 部 分 比例 。 因 此 ， 
单词 向 量化 在 图 像 摘 要 优化 问题 中 是 一 个 关键 的 优化 子 问题 。 考 虑 到 MSCOCO 数据 
集 单词 数量 为 29415 个 , 而 且 在 图 像 描述 语句 中 出 现 的 频率 差异 较 大 。 因 此 有 必要 得 
除 掉 一 些 在 描述 语句 中 出 现 频率 较 小 的 单词 。 在 NIC 的 默认 算法 参数 将 移 除 出 现 频 
率 小 于 4 的 生僻 单词 并 将 其 全 部 替换 为 “nul” 表 示 。 因 此 ，NIC 算法 中 的 描述 词汇 
量 大 小 为 11519 个 不 同 的 单词 。 


生成 数据 脚本 实际 上 的 执行 的 是 data\build_mscoco_data.py 文件 中 的 指令 。 从 这 
个 文件 中 可 以 发 现 TensorFlow 的 一 些 IO 写 入 操作 并 不 需要 定义 完毕 后 再 在 Session 
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运行 。 程 序 使 用 load and process metadata 函数 读 取 原 始 MSCOCO 数据 集 。 输 入 的 
两 个 参数 分 别 表 示 图 像 摘 要 真 值 文件 和 对 应 的 图 像 文件 存放 文件 夹 路 径 。 原 始 
MSCOCO 数据 训练 集 和 验证 集 分 别 含有 82783 和 40504 张 图 像 。 因 公开 的 MSCOCO 
数据 没有 测试 数据 集 , 故 算法 最 后 将 训练 集 和 验证 集 重 新 根据 比例 组 合 形成 新 的 训练 
集 、 验 证 集 和 测试 集 。 新 的 训练 集 、 验 证 集 和 测试 集 分 别 含 有 117211、2025 和 4051 
张 图 像 。 使 用 这 样 的 数据 划分 是 为 了 确保 足够 多 的 样本 参与 训练 。 训 练 集 、 测 试 集 、 
验证 集 的 重新 分 配 代 码 如 下 所 示 。 


# Load image metadata from caption files. 
mscoco_train dataset = load and process metadata (FLAGS.train_ 
captions file, 
FLAGS.train image. 
dir) 
mscoco val dataset = load and process metadata (FLAGS.val captions - 
file, 
FLAGS.val image dir) 


# Redistribute the MSCOCO data as follows: 

# train dataset = 100% of mscoco train dataset + 85% of 
mscoco_val_dataset. 

* val dataset = 5% of mscoco val dataset (for validation during 
training). 

# test_dataset = 10% of mscoco_val_dataset (for final 
evaluation). 

train cutoff = int(0.85 * len(mscoco val dataset) ) 

val cutoff - int(0.90 * len(mscoco val dataset)) 

train dataset =  mscoco train dataset + mscoco val dataset 
[0:train cutoff] 

val dataset - mscoco val dataset[train cutoff:val cutoff] 

test dataset = mscoco val dataset[val cutoff:] 


从 单词 向 量化 的 参数 来 看 ， 令 词典 共有 11519 个 单词 需要 用 512 维 的 向 量 表示 ， 
则 共 需 要 优化 11519x512-5897728 个 参数 。 从 参数 和 样本 的 数量 上 可 以 看 出 
5897728 : 117211 ~ 50 : 1， 一 张 图 像 摘 要 信息 样本 对 应 50 个 参数 。 考 虑 到 描述 语 
名 的 平均 长 度 为 13 个 单词 ,因此 一 个 单词 对 应 的 优化 参数 数量 平均 大 约 在 5 个 左右 。 
由 此 可 见 , 模型 参数 的 因 变 量 区 间 范 围 大 致 上 能 够 反映 训练 样本 集 的 数据 信息 并 存在 
一 定 的 见 余 空间 。 
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训练 集 的 描述 语句 按照 单词 为 基本 单元 进行 了 拆 分 。 最 终 以 单词 为 基本 单元 构成 

集合 vocab 。 列 表 train captions 中 保存 的 是 图 像 描述 语句 字符 串 列 表 。 函 数 
_create_vocab 实现 对 字符 串 的 单词 分 解 并 转换 为 类 的 对 象 。vocab 是 含有 训练 集中 出 
现 过 的 所 有 单词 的 字典 类 型 。 它 含有 两 个 成 员 变量 。 其 中 ，_vocab 被 用 于 保存 单词 
到 序号 的 映射 字典 ， 而 _unk id 则 保存 对 应 字典 的 总 长 度 。_vocab 中 的 所 有 单词 都 按 
照 词 频 从 大 到 小 做 排序 。 

# Create vocabulary from the training captions. 

train captions = [c for image in train dataset for c in 
image.captions] 

vocab = create vocab(train captions) 


最 后 函数 _process_dataset 内 部 会 按照 多 线程 方式 将 输入 数据 以 指定 的 名 字 参 数 
作为 后 绥 存 入 硬盘 。 process dataset 有 4 个 输入 参数 。 它 们 的 作用 分 别 是 存 入 数据 文 
件 名 、 原 始 数据 路 径 信息 、 单 词 信息 和 写 入 数据 的 分 块 文件 数量 。 其 中 ,原始 数据 路 
径 信息 是 指 图 像 文件 的 id 标示 号 、 图 像 文件 名 路 径 、 单 张 图 像 的 所 有 摘要 内 容 构 成 
的 三 元 组 。 写 入 数据 的 分 块 文件 数量 还 必须 大 于 线程 数量 ， 且 能 够 被 线程 数量 整除 。 
因原 始 数据 单 张 图 像 对 应 多 个 摘要 描述 , 需要 对 数据 进行 转换 , 以 确保 存 入 的 图 像 和 
摘要 一 一 对 应 再 保存 数据 。 


_process dataset ("train", train dataset, vocab, FLAGS.train_ 
shards) 

process dataset("val", val dataset, vocab, FLAGS.val shards) 

_process dataset("test", test dataset, vocab, FLAGS .test_ 
shards) 


process dataset AXA Boa GRAF rz, BSc MRE for 语句 将 原始 
样本 中 单个 图 像 对 应 多 个 摘要 信息 转换 为 一 对 一 关系 并 重新 保存 为 列表 。 变 量 caption 
是 字符 串 描述 语句 。 这 里 将 其 保存 为 列表 结构 是 方便 后 续 处 理 的 单词 列表 转换 。 

def process dataset(name, images, vocab, num shards): 


images - [ImageMetadata (image.image id, image.filename, [caption]) 
for image in images for caption in image.captions] 


Zik, images 保存 了 写 入 数据 的 全 部 路 径 信息 。 为 了 提升 输入 写 入 速度 ，images 
信息 将 根据 线程 数量 拆 分 为 等 长 的 数据 块 ,每 个 数据 分 块 由 单个 线程 保存 为 多 个 文件 。 
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num threads 
spacing = 
1).astype (np.int) 


min (num shards, 


np.linspace (0, 


FLAGS.num threads) 
len(images), 


num threads * 


for i in xrange(len(spacing) - 1) 


ranges.append([spacing[i], spacing[i + 1]]) 


coord = tf.train.Coordinator() 
decoder - ImageDecoder() 


最 后 下 列 语句 开启 相互 无 关 多 线程 操作 , 将 分 块 的 数据 依次 保存 为 多 个 数据 文件 。 


for thread index in xrange (len (ranges)) 


args = (thread index, 
num shards) 


c i 


ranges, name, images, decoder, vocab, 
threading Thread(target- process image files, args-args) 
t.start() 

threads.append(t) 


coord. join (threads) 


写 入 数据 线程 函数 process image files 的 关键 代码 如 下 所 示 。 


参数 num_shards 
用 以 设置 整个 数据 集 将 拆 分 保存 为 文件 的 数量 。 


每 个 线程 将 产生 int(num shards / 
num_threads) 个 文件 ,该 值 由 num_shards | per batch 表示 。shard_ranges 表示 线程 内 部 


的 数据 分 块 标记 。num_images_in_thread 表示 线程 负责 责 写 入 的 数据 样本 总 数 。 
def | process image files(thread index, 
decoder, vocab 


ranges, 


num shards): 
num threads 


name, 


images, 
len (ranges) 


num shards per batch - int(num shards / num | threads) 
Shard ranges = 


np.linspace (ranges [thread | index] [0], 
[thread_index] [1], num shards per batch + 1). astype (int) 


ranges 
num images in thread - ranges[thread | index][1] - ranges[thread 
index] [0] 


线程 函数 内 部 使 用 两 个 循环 操作 来 实现 文件 的 写 入 操作 。 外 层 循环 创建 一 
tf.python io.TFRecordWriter 写 入 文件 对 象 。 随 后 ， 


writer.write(sequence_ 
example.SerializeToStringO) 指 令 负责 将 图 像 和 摘要 信息 写 入 文件 。writer close0 关 闭 写 


文件 对 象 。 其 中 ，output filename. 变量 用 于 保存 当前 的 写 入 文件 名 ,例如 
“train-00002-of-000256”, 则 此 时 name 为 “train”, shard 值 为 2, num shards 值 为 256。 


counter = 0 


for s in xrange (num shards per batch) 
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# Generate a sharded version of the file name, e.g. 
'train-00002-of-00010' 

shard = thread_index * num_shards_per_batch + s 

output filename = "$s-$.5d-of-$.5d" $ (name, shard, num shards) 

output file - os.path.join(FLAGS.output dir, output filename) 

writer - tf.python io.TFRecordWriter(output file) 

shard counter = 0 

images in shard = np.arange(shard ranges[s], shard ranges[s + 1], 

dtype=int) 


内 层 循环 将 依次 读 取样 本 信息 然后 写 入 文件 。 函 数 to. sequence. example 根据 输 
入 训练 样本 信息 读 取 硬 盘 文件 对 应 的 编码 图 像 数据 , 返回 tf.train.SequenceExample 对 
象 。 若 指定 的 文件 解码 失败 ， 则 跳 过 该 文件 。 


for i in images in shard: 
image = images[i] 
sequence example = .to sequence example (image, decoder, 
vocab) 

if sequence example is not None: 
writer.write (sequence example.SerializeToString()) 
shard counter *- 1 
counter += 1 


writer.close() 


函数 to sequence example 的 关键 代码 如 下 所 示 。tf.train.SequenceExample 对 象 
是 TensorFlow 的 标准 训练 数据 保存 形式 。 函 数 tf.gfile.FastGFile 负责 快速 打开 并 读 取 
二 进 制 文件 内 容 , 并 保存 至 encoded image 对 象 中 。 使 用 自 定义 类 decoder.decode jpeg 
尝试 解码 jpg 图 像 。 若 解码 失败 则 返回 退出 函数 ， 跳 过 该 文件 的 信息 写 入 操作 。 


def to sequence example(image, decoder, vocab): 

with tf.gfile.FastGFile(image.filename, "r") as E: 
encoded image - f.read() 

try: 
decoder.decode jpeg (encoded image) 

except (tf.errors.InvalidArgumentError, AssertionError): 
print("Skipping file with invalid  JPEG data: $s" $ 

image.filename) 

return 
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TensorFlow 中 实现 了 jpeg 图 像 解码 的 操作 。 但 该 操作 必须 放 在 具体 的 Session 
会 话 中 运行 。 因 此 decoder 对 象 的 对 应 类 ImageDecoder 中 含有 一 个 tfSession 对 象 。 


class ImageDecoder (object) : 
"""Helper class for decoding images in tensorflow.""" 


def . init (self): 
# Create a single TensorFlow Session for all image decoding calls. 
Self. sess = tf.Session() 


# TensorFlow ops for JPEG decoding. 

Self. encoded jpeg - tf.placeholder (dtype-tf.string) 

Self. decode jpeg - tf.image.decode jpeg(self. encoded jpeg, 
channels-3) 


def decode jpeg (self, encoded jpeg): 
image = Self. sess.run(self. decode jpeg, 
feed dict-(self. encoded jpeg: 
encoded jpeg]) 
assert len(image.shape) -- 
assert image.shape[2] == 3 
return image 


车 文件 为 jpg 文件 ， 则 按 如 下 形式 使 用 图 像 的 jpg 编码 数据 和 图 像 id 号 构建 
tf.train.Features 对 象 context。 


3 


context = tf.train.Features(feature-( 
"image/image id": .int64 feature(image.image id), 
"image/data": -bytes feature(encoded image), 

}) 


另 一 方面 , 程序 使 用 之 前 介绍 的 字典 对 象 vocab 将 摘要 语句 转换 为 对 应 的 序号 序 
列 。 图 像 描 述 内 容 与 对 应 的 序号 序列 构建 tf.train.FeatureLists 对 象 feature lists, KA 
的 训练 样本 数据 由 context 和 feature lists 构成 tf.train.SequenceExample 对 象 
Sequence_example。 
assert len(image.captions) == 1 
caption = image.captions[0] 
caption ids - [vocab.word to id(word) for word in caption] 


feature lists - tf.train.Featurelists (feature list={ 
"image/caption": .bytes feature list(caption), 
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"image/caption ids":  int64 feature list(caption ids) 
)) 


Sequence example - tf.train.SequenceExample( 
context=context, feature lists-feature lists) 


return sequence example 


上 述 函 数 中 调用 的 int64 feature , — bytes feature , — bytes feature list 、 
_int64 feature list 等 函数 ， 作 用 都 是 将 变量 序列 化 转换 。 它 们 内 部 都 是 调用 了 
TensorFlow 的 序列 化 接口 。 这 些 函 数 都 要 求 输 入 参数 为 限定 的 类 型 。 相 关 代 码 如 下 。 


def _int64_feature (value): 


"""Wrapper for inserting an int64 Feature into a SequenceExample 
proto.""" 


return 
tf.train.Feature(int64 list-tf.train.Int64List (value-[value])) 
def bytes feature (value): 


"""Wrapper for inserting a bytes Feature into a SequenceExample 
proto.""" 


return 
tf.train.Feature(bytes list-tf.train.BytesList (value-[str (value)])) 
def _int64 feature list (values): 


"""Wrapper for inserting an int64 FeatureList into a SequenceExample 
proto.""" 


return tf.train.Featurelist(feature-[ int64 feature(v) for v in 
values]) 


def bytes feature list(values): 


""'Wrapper for inserting a bytes FeatureList into a SequenceExample 
proto.""" 


return tf.train.FeatureList(feature-[ bytes feature(v) for v in 
values]) 


上 述 代 码 实现 了 MSCOCO 数据 的 转换 ， 因 为 原始 数据 中 一 张 图 像 对 应 了 多 个 描 
述 语句 。 原 有 的 20GB 图 像 数据 被 解压 后 转换 为 120GB 的 训练 数据 。 转 换 后 的 数据 
更 易于 TensorFlow 的 快速 读 取 。 


完成 数据 的 转换 后 即 可 加 载 转换 数据 文件 输入 到 训练 网 络 中 .在 上 一 节 中 提 到 了 
使 用 FIFOQueue 队列 与 占 位 符 的 方式 获取 训练 数据 。 这 里 将 介绍 使 用 
RandomShuffleQueue 队列 与 文件 输入 的 方式 来 获取 训练 数据 。TensorFlow 提供 了 
tf.Coordinator 和 t£. QueueRunner 这 两 个 类 与 队列 对 象 配合 使 用 。 需 要 说 明 的 是 上 一 节 
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FARA EH tf.Coordinator 类 ， 而 是 直接 使 用 Python 的 线程 机 制 实现 队 列 的 异步 线程 
调用 。 另 外 ， 在 本 例 中 是 直接 使 用 TFRecord 文件 作为 训练 数据 源 。 此 时 ， 除 了 占 位 
符 方式 , TensorFlow 还 为 其 他 函数 提供 更 简便 的 数据 输入 方式 , 能 够 将 文件 输入 操作 
定义 为 网 络 结构 的 一 部 分 。 


针对 TFRecord 文件 , 函数 tf.train.string input. producer 提供 了 简便 的 训练 数据 加 
载 方式 。 该 函数 返回 一 个 字符 串 队 列 并 可 用 于 构建 TensorFlow 的 训练 图 ， 还 将 硬盘 
文件 作为 定义 网 络 图 的 数据 输入 。 该 函数 接口 定义 如 表 6-6 所 示 。 


表 6-6 tf.train.string input producer 函数 接口 定义 









tf.train.string input producer(string tensor, num epochs-None, shuffle=True, seed=None, 
capacity-32, shared name-None, name-None, cancel, op-None) 


返回 一 个 可 作为 训练 输入 管道 的 字符 串 队 列 





参数 说 明 

string tensor | 表示 和 输出 字符 串 队列 的 内 容 ， 是 一 个 1 维 的 字符 申 张 全 

num epochs | 可 选 参数 。 若 该 参数 不 为 空 则 应 是 一 个 有 效 数值 。 当 num_epochs 为 空 时 ,返回 一 个 元 
HH string. tensor 组 成 的 无 限 循环 队列 。 否 则 , 函数 内 部 开启 一 个 计数 器 , 返回 元 素 由 
string tensor 构成 且 最 多 循环 次 数 为 num_epochs 的 队列 








shuffle 可 选 参数 。 若 该 值 为 真 ， 在 每 次 循环 中 随机 打 乱 返回 队列 各 元 素 的 位 置 

seed 可 选 参数 。 整 形 数值 参数 ， 作 为 随机 种 子 值 ， 当 shuffle 为 真 时 该 值 影 响 队列 元 素 的 乱 
序 效果 

capacity 可 选 参数 。 表 示 返 回 队列 的 长 度 ， 默 认为 32 

shared name | 可 选 参数 。 可 在 不 同 Session 会 话 中 的 共享 名 称 

name 可 选 参数 ， 操 作 名 称 


cancel_op 可 选 参数 ， 关 于 取消 该 队列 的 操作 名 称 


NIC 算法 在 训练 或 评估 时 ， 数 据 的 输入 操作 是 由 ops/nputspy 文件 中 的 
prefetch input data 函数 实现 的 。 该 函数 首先 使 用 文件 名 列表 函数 
tf.train.string input producer 创建 文件 名 字符 串 循 环 队列 。 作 为 传 入 参数 ， 字 符 串 张 
量 data_files 表示 存放 在 硬盘 的 TFRecord 文件 路 径 列表 。 


NIC 算法 源码 中 数据 文件 网 络 输入 操作 定义 如 以 下 代码 所 示 。 其 中 ， 
filename queue 被 定义 为 随机 排序 的 最 大 尺寸 为 16 的 字符 串 队 列 。values_queue HE 
义 为 一 个 最 小 样本 量 为 4600 (默认 时 values per shard 为 2300, input queue | 
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capacity factor 为 2 ), 最 大 容量 7800 的 RandomShuffleQueue 随机 队列 。values_queue 
被 用 于 保存 从 文件 中 读 取 的 数据 序列 信息 。 


在 验证 时 ，filename_queue 则 被 定义 为 长 度 为 1 的 字符 串 队列 。values_queve 被 
定义 为 最 大 容量 为 2396 (默认 时 values per shard 为 2300, batch_size 为 32) 的 
FIFOQueue 队列 。 


data files = [] 
for pattern in file pattern.split(","): 
data files.extend(tf.gfile.Glob(pattern)) 
if is training: 
filename queue - tf.train.string input producer( 
data files, shuffle-True, capacity-16, name-shard queue. 
name) 
min queue examples = values per shard * input queue capacity. 
factor 
capacity - min queue examples * 100 * batch size 
values queue = tf.RandomShuffleQueue( 
capacity=capacity, 
min_after_dequeue=min_queue_examples, 
dtypes-[tf.string], 
name-"random " * value queue name) 
else: 
filename queue = tf.train.string input producer( 
data files, shuffle-False, capacity-1, name-shard queue, 
name) 
capacity = values per shard + 3 * batch size 
values queue - tf.FIFOQueue( 
capacity-capacity, dtypes-[tf.string], name-"fifo " 十 
value queue name) 


完成 了 文件 名 队列 和 数据 队列 的 声明 后 ， 还 需要 定义 它们 之 间 的 关联 操作 。 首先 
需要 使 用 TFRecordReader 对 象 reader 定义 读 取 文 件 操作 ， 然 后 定义 读 取 内 容 的 入 队 
列 操作 。 语句 enqueue_ops.append(values_queue.enqueue([value])) 定 义 了 一 次 入 队列 操 
作 ， 并 将 该 操作 存 入 到 列表 对 象 enqueue_ ops。for 循环 使 enqueue_ops 含有 
num reader threads 个 入 队列 操作 。 最 后 , tftrain.queue_runnerQueueRunner 实现 了 数 
据 队列 的 多 线程 入 队列 定义 。tftrain.queue_runneradd_ queue runner 将 该 操作 加 入 到 
默认 的 Session 会 话 中 。 
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enqueue ops = [] 
for in range (num reader threads): 
_ value = reader.read(filename queue) 
enqueue ops.append(values queue.enqueue([value])) 


tf.train.queue runner.add queue runner(tf.train.queue runner.QueueR 
unner (values queue, enqueue ops)) 
return values queue 


至 此 ， 构 建 了 TFRecord 训练 数据 的 输入 操作 。 ops/inputs.py 文件 中 的 
prefetch input data 函数 将 返回 数据 队列 input. queue, 该 队列 input. queue 的 出 队列 操 
YE dequeue0 将 返回 一 个 存 入 时 的 tf.train.SequenceExample 对 象 序列 化 对 象 样 本 。 因 
此 ， 还 需要 定义 tftrain.SequenceExample 对 象 序列 化 对 象 样本 的 解析 操作 。 


parse sequence example 函数 同样 在 ops/inputs.py 文件 中 。 该 函数 输入 三 个 参数 ， 
其 中 serialized 为 读 取 的 序列 化 单个 样本 数据 ， image_feature 和 caption_feature 为 数据 
标签 。 在 configuration.py 中 可 查 读 取 数据 时 的 标 签 变量 image feature 和 
caption feature 的 实际 值 分 别 为 “image/data” 和 “image/caption ids”。 这 与 存 入 时 的 
标签 名 称 是 一 致 的 。 返 回 编码 图 像 数据 张 量 encoded image 和 描述 语句 单词 序号 序列 


caption, 


def parse sequence example (serialized, image feature, 
caption feature): 
"""Parsesa tensorflow.SequenceExample into an image and caption. 


Args: 
serialized: A scalar string Tensor; a Single serialized 
SequenceExample. 
image feature: Name of SequenceExample context feature 
containing image 
data. 
caption feature: Name of SequenceExample feature list containing 
integer 
captions. 


Returns: 
encoded image: A scalar string Tensor containing a JPEG encoded 
image. 
caption: A 1-D uint64 Tensor with dynamically specified length. 
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context, sequence - tf.parse single sequence example( 
serialized, 
context features-( 
image feature: tf.FixedLenFeature([], dtype-tf.string) 
}, 
sequence features-( 


caption feature: tf.FixedLenSequenceFeature([], 
dtype-tf.int64), 


) 


encoded image - context[image feature] 

caption - sequence[caption feature] 

return encoded image, caption 

到 目前 为 止 TenosrFlow 还 无 法 直接 使 用 编码 图 像 数 据 进行 图 像 摘 要 的 训练 。 还 

需要 定义 图 像 的 解码 操作 。 另 外 , 为 了 扩充 图 像样 本 的 多 样 性 ,有 必要 对 解码 的 图 像 
添加 一 些 随机 变化 。 这些 操作 都 是 在 ops/image processing.py 文件 中 的 process image 
函数 定义 的 。 其 中 图 像 解码 操作 定义 如 以 下 代码 所 示 ， 这 里 使 用 了 
t£image.decode jpeg 函数 和 tfimage.decode png 函数 定义 解码 操作 ， 但 并 没有 在 
Session 中 实际 运行 。 

# Decode image into a float32 Tensor of shape [?, ?, 3] with values 


in [0, 1). 
with tf.name scope("decode", values-[encoded image]): 


if image format == "jpeg": 

image = tf.image.decode jpeg (encoded image, channels=3) 
elif image_format == "png": 

image = tf.image.decode png(encoded image, channels=3) 
else: 


raise ValueError("Invalid image format: %s" % image_format) 
image = tf.image.convert image dtype (image, dtype-tf.float32) 

在 前 文 的 样本 和 模型 参数 数量 比较 分 析 中 提 到 了 ， 一 张 图 像 摘 要 信息 样本 对 应 

50 个 模型 参数 。 考 虑 到 描述 语句 的 平均 长 度 为 13 个 单词 ， 因 此 一 个 单词 对 应 的 优化 
参数 数量 平均 大 约 在 5 个 左右 。 模 型 参数 的 因 变量 区 间 范 围 大 致 上 能 够 反映 训练 样本 
集 的 数据 信息 并 存在 一 定 的 元 余 空 间 。 也 就 是 说 , 这 里 使 用 了 较 多 的 参数 与 较 少 的 样 
本 ,容易 产生 过 拟 合 问题 。 训 练 完毕 后 ,在 不 影响 视觉 内 容 的 前 提 下 ,对 训练 集中 的 
任 一 张 图 像 略 作 修 改 , 都 可 能 会 产生 与 原始 训练 图 像 差异 较 大 的 模型 输出 结果 。 为 了 
增强 并 验证 模型 对 这 一 现象 的 处 理 能 力 ,有 必要 在 训练 过 程 中 随机 对 图 像 数 据 进行 修 
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改 调整 。 这 种 随机 修改 调整 包括 图 像 尺寸 、 位 置 、 色 调 、 灰 度 、 对 比 度 等 多 个 方面 。 


inception v3 网 络 的 训练 输入 图 像 尺 寸 为 [299,299]。 为 了 确保 输入 图 像 尺 寸 与 
inception v3 网 络 对 应 ， 该 函数 还 定义 了 图 像 的 缩放 和 裁剪 操作 。 将 图 像 统 一 缩放 为 
[346,346] 大 小 ， 并 随机 截取 在 [299,299] 大 小 的 子 图 返回 。 以 确保 图 像 位 置 和 尺寸 上 输 
入 内 容 的 多 样 性 。 


# Resize image. 
assert (resize height > 0) == (resize width > 0) 
if resize height: 
image = tf.image.resize images (image, 
size=[resize height, resize width], 


method-tf.image.ResizeMethod.BILINEAR) 


# Crop to final dimensions. 
if is training: 

image - tf.random crop(image, [height, width, 3]) 
else: 


# Central crop, assuming resize height > height, resize width > 
width. 


image - tf.image.resize image with crop or pad(image, height, 
width) 

男 一 方面 ，distort_image 函数 扩充 了 图 像 内容 的 多 样 性 。 最 后 ， 减 法 操作 和 乘法 
操作 确保 图 像 数 据 在 [-1，1] 的 取 值 区 间 范 围 内 。 这 是 为 了 同 inception_v3 深度 神经 网 
络 训练 好 的 默认 参数 输入 数据 范围 相对 应 。 

# Randomly distort the image. 


if is training: 
image = distort image (image, thread id) 


image summary("final image", image) 


* Rescale to [-1,1] instead of [0, 1] 
image - tf.sub(image, 0.5) 

image - tf.mul(image, 2.0) 

return image 


distort image 函数 内 部 定义 了 多 个 随机 图 像 内 容 修改 操作 。 函 数 
tfimage.random flip left right 将 随机 水 平 翻 转 图 像 内 容 。 另 外, 该 函数 还 将 根据 线程 
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序号 的 奇偶 数 随机 修改 图 像 内 容 的 亮度 、 饱 和 度 、 色调 和 对 比 度 等 。 这 些 变换 操作 是 
分 别 通过 tf.image.random_brightness .t£image.random saturation .tfimage.random hue. 
tLimage.random contrast 等 内 置 函 数 实现 的 。 tf.clip_by_value 函数 确保 修改 后 的 图 像 
内 容 取 值 在 [0,1] 范 围 内 ， 以 确保 是 有 效 的 图 像 数 据 。 

4 Randomly flip horizontally. 


with tf.name scope("flip horizontal", values-[imagel): 
image = tf.image.random flip left right (image) 


# Randomly distort the colors based on thread id. 
color ordering - thread id $ 2 
with tf.name scope("distort color", values-[imagel): 


if color ordering == 0: 
image - tf.image.random brightness (image, max delta-32. / 
255.) 
image = tf.image.random saturation (image, lower-0.5, 
upper-1.5) 
image - tf.image.random hue (image, max delta-0.032) 
image = tf.image.random contrast (image, lower=0.5, upper=1.5) 
elif color_ordering == 1: 
image = tf.image.random brightness (image, max delta-32. / 
255.) 
image = tf.image.random contrast (image, lower-0.5, upper=1.5) 
image = tf.image.random saturation (image, lower-0.5, 
upper-1.5) 


image = tf.image.random hue (image, max delta-0.032) 


# The random * ops do not necessarily clamp. 

image - tf.clip by value (image, 0.0, 1.0) 

在 上 一 闻 中 介绍 的 图 像 检测 问题 样本 数据 是 以 图 像 为 基本 单位 输入 到 网 络 中 进 
行 训练 的 。 因 为, 图像 内 部 会 以 网 格 方式 划分 为 多 个 样本 构建 batch 训练 包 进行 训练 。 
在 图 像 摘 要 问题 中 ， 若 以 单个 样本 为 基本 单元 反 向 梯度 逐步 修正 整个 训练 集 ， 则 可 能 
更 易 导致 训练 速度 缓慢 甚至 梯度 发 散 的 情况 。 因此 ， 有 必要 对 输入 数据 构建 batch 包 
再 传 入 训练 网 络 。 关 于 batch 包 的 相关 含 义 将 在 下 一 章 中 进行 介绍 。ops/inputs.py 文 
件 中 的 batch. with, dynamic pad 函数 定义 了 输入 数据 的 batch 包 构 建 操作 。 


如 前 文 所 述 ， 下 列 代码 从 TFRecord 文件 中 读 取 了 tf.train.SequenceExample 序列 
化 对 象 数据 保存 为 serialized_sequence_exampleo 再 通过 input_ops.parse_sequence_ 
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example 函数 定义 了 图 像 解码 操作 。 接 着 ， self.process_image 函数 定义 了 图 像 内 容 的 
随机 修改 。 外 层 for 循环 令 selfconfig.num_preprocess_threads( 默 认 值 为 4) 个 样本 组 成 
列表 对 象 images and captions, 


images and captions = [] 
for thread id in range (self.config.num preprocess threads): 
serialized sequence example = input queue.dequeue() 
encoded image, caption = input ops.parse sequence example( 
serialized sequence example, 
image feature-self.config.image feature name, 
caption feature-self.config.caption feature name) 
image - Self.process image(encoded image, thread id-thread 
id) 
images and captions.append([image, caption]) 
列表 对 象 images and captions 将 作为 input ops.batch with dynamic pad 内 部 函 
数 构建 队列 的 输入 源 ,产生 训练 用 batch 数据 包 。batch 数据 包 是 images, input seqs, 
target seqs 和 input mask 组 成 的 四 元 组 。 其 中 images 尺寸 为 [32,299,299,3] 表 示 图 像 
batch 数据 包 。input_seqs 表示 描述 语句 的 当前 描述 单词 序列 。 target seqs 表示 描述 语 
句 下 一 个 预测 描述 单词 。 input mask 作为 掩 码 用 以 区 分 不 同 长 度 的 描述 语句 。 
input seqs, target seqs 和 input mask 的 尺寸 都 为 [32,maxiepatcn(|Si|) 一 1]。 其 中 ， 
maxiebatch(|Si|) 表 示 batch 包 中 图 像 描述 语句 单词 数量 的 最 大 值 。 训 练 的 过 程 就 是 从 
输入 一 次 图 像 特征 , 再 输入 一 次 语句 开始 标记 特征 后 ， 依次 优化 下 一 个 预测 单词 损失 
函数 值 。 输 入 单词 和 预测 单词 在 描述 语句 中 相差 一 个 位 置 。 
# Batch inputs . 
queue capacity = (2 * Self.config.num preprocess threads * 
self.config.batch size) 


images, input seqs, target seqs, input mask - ( 
input ops.batch with dynamic pad(images and captions, 


batch size-self.config.batch size, 
queue capacity-queue 
capacity)) 
self.images = images 
self.input seqs = input seqs 
self.target seqs - target seqs 
self.input mask - input mask 
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从 如 下 函数 batch with dynamic pad 的 关键 代码 可 以 看 输入 的 图 像 摘 要 列 
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函数 batch. with dynamic pad 的 关键 代码 如 下 所 示 。 关键 语句 tf.train.batch join 
将 在 内 部 开启 len(enqueue _lisb 个 线程 ， 线 程 i 负责 将 数据 enqueue_list[i] 添 加 到 队列 
中 。 这 些 线 程 共同 维护 一 个 数据 队列 实现 batch 数据 包 的 自动 生成 。 其 中 ， 参 数 
enqueue list 表示 为 输入 的 数据 源 。 参 数 batch size 表示 batch 数据 包 的 大 小 。 参 数 
capacity 表示 队列 的 上 限 大 小 。dynamic_pad 为 真 时 ， ER enqueue list 中 的 元 素数 据 
维 数 相同 ,允许 元 素 的 大 小 尺寸 不 同 。 在 出 队列 操作 时 ， 尺寸 偏 小 的 元 素 将 在 右 侧 % 
填充 。 若 数据 类 型 为 数值 则 填充 0， 若 数据 类 型 为 字符 素 则 填充 空 字符 串 。 

def batch with dynamic pad(images and captions, 

batch size, 


queue capacity, 
add summaries-True): 








enqueue list = [] 
for image, caption in images and captions: 
caption length = tf.shape (caption) [0] 
input length - tf.expand dims (tf. sub(caption length, 1), 0) 


input seq - tf. slice(caption, [0], input length) 
target seq = tf. slice(caption, [1], input . length) 
indicator = tf.ones(input length, dtype-tf.int32) 
enqueue list.append([image, input seq, target seq, indicator]) 


images, input seqs, target seqs, mask = tf.train.batch join( 
enqueue list, 
batch size-batch size, 
capacity-queue capacity, 
dynamic pad-True, 


231 4 
ww ai bbt. com 0000000 





E: 深度 学 习 原理 与 TensorFlow 实践 


name-"batch and pad") 
return images, input segs, target seqs, mask 


图 像 向 量化 


经 过 前 期 的 数据 操作 后 ， 图 像 数据 被 转换 为 尺寸 为 [32,.299,299,3] 的 张 量 batch 数 
据 包 。 而 实际 上 ，TensorFlow 内 部 已 经 实现 了 多 种 经 典 网 络 的 完整 实现 , 其 中 包括 了 
inception v3 网 络 。 以 下 代码 概括 了 inception_v3 网 络 的 操作 定义 。inception_v3_base 
函数 返回 值 net 表示 网 络 的 最 顶端 输出 层 结果 ， 而 end points 则 包括 了 整个 网 络 的 相 
关 信 息 。 

from tensorflow.contrib. slim.python.slim.nets. inception v3 import 
inception v3 base 

ind end points - inception v3 base(images, scope-scope) 

在 TensorFlow 源码 tensorflow\contrib\slim\python\slim\nets\inception_v3.py 文件 内 
部 可 以 看 到 inception_v3_base 函数 的 内 部 实现 。 从 内 部 实现 中 可 以 看 出 inception_v3 
网 络 主要 也 是 由 tensorflow.contrib.layers 模块 构建 的 。 以 下 代码 片段 显示 了 使 用 
tensorflow.contrib.layers 模块 构建 深度 神经 网 络 。 函 数 variable scope.variable scope 
定义 变量 命名 前 缀 以 便 复 用 训练 好 的 模型 参数 ， 并 验证 张 量 列表 [inputs] 中 的 元 素 与 
当前 操作 定义 来 自 于 同一 个 网 络 。 函 数 arg scope 重 定义 了 参数 列表 [layers.conv2d， 
layers lib.max pool2d, layers lib.avg pool2d] 指定 函数 的 默认 参数 。 类 函数 
layers.conv2d 定义 了 卷 积 操作 ， 并 返回 操作 结果 张 量 。 关 于 layers 模块 中 实现 的 其 他 
类 型 网 络 层 操 作 定 义 可 查看 源码 文件 tensorflow\contribllayers\python\layers\layers.py。 


from tensorflow.contrib import layers 
with variable scope.variable scope (scope, 'InceptionV3', 
[inputs]): 
with arg scope( 
[layers.conv2d, layers lib.max pool2d, layers lib.avg 


pool2d], 
stride=1, 
padding='VALID'): 
# 299 x 299 x 3 
end point = 'Conv2d_la_3x3' 
à 232 
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net = layers.conv2d(inputs, depth(32), (3, 3], stride-2, 
Scope-end point) 
end points [end point] - net 
if end point -- final endpoint: 
return net, end points 
# 149 x 149 x 32 
end point - 'Conv2d 2a 3x3' 
net = layers.conv2d (net, depth(32), (3, 31; scope-end point) 
end points[end point] - net 
if end point -- final endpoint: 
return net, end points 
# 147 x 147 x 32 return net, end points 


定义 了 inception v3 网 络 操作 后 还 需要 实现 对 训练 模型 的 加 载 。 模型 加 载 代 码 如 
"PH, BZW tfget collection 定义 操作 返回 指定 命名 的 变量 列表 。 tftrain.Saver 根据 
变量 列表 构建 存储 对 象 。 最 后 ，saverrestore 函数 根据 网 络 会 话 对 象 sess 和 模型 文件 
存储 路 径 定义 inception v3 网 络 的 训练 参数 还 原 操作 。 最 后 ， 定义 的 模型 初始 化 函数 
self.init fn 将 作为 参数 输入 到 网 络 的 训练 函数 中 。 


self.inception variables -tf.get collection (tf.GraphKeys.GLOBAL. 
VARIABLES, scope-"InceptionV3") 


saver = t£.train.Saver(self.inception variables) 


def restore fn(sess): 
l saver.restore (sess, self.config.inception_checkpoint_file) 
self.init_fn = restore_fn 


inception v3 网 络 是 NIC 算法 图 像 向 量化 的 主要 组 成 部 分 。 输 入 尺寸 为 
[32,299,299,3] 的 batch 数据 训练 包 ， 经 过 inception_v3 网 络 后 将 得 到 尺寸 为 
[32,8,8,2048] 大 小 的 batch 数据 包 特 征 描述 矩阵 。 即 32 张 尺 寸 为 [299,299,3] 大 小 的 图 
像 被 分 别 抽象 化 为 32 个 [8,8,2048] 大 小 的 矩阵 描述 。 为 了 强化 特征 的 平移 不 变性 , 在 
inception_v3 网 络 基础 上 还 有 一 个 尺寸 为 [8,8] 的 均值 池 化 层 ， 强化 特征 的 平移 不 变性 。 
最 后 ， 在 网 络 添加 一 个 尺寸 为 [2048,512] 的 全 连接 层 ， 将 图 像 特征 转化 为 512 维 的 向 
量化 的 表示 。 
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单词 向 量化 


实际 上 单词 向 量化 的 过 程 非常 简单 。 这 一 过 程 只 是 使 用 t£get variable 函数 获取 
一 个 尺寸 为 [self config.vocab size, self.config.embedding_size] 的 可 训练 的 张 量变 量 ， 
用 以 表示 整个 单词 集合 的 向 量化 表示 。 然 后 tfnn.embedding lookup 函数 定义 操作 返 
回 当前 描述 单词 序号 对 应 的 向 量子 集 。 


with tf.variable scope ("seq embedding"), tf.device("/cpu:0"): 
embedding map - tf.get variable( 
name-"map", 
Shape-[self.config.vocab size, 
self.config.embedding size], 
initializer-self.initializer) 
Seq embeddings - tf.nn.embedding lookup (embedding map, 
self.input_seqs) 





self.seq embeddings = seq_embeddings 


从 inference wrapper base.py 文件 可 知 ， 在 预测 阶段 ，NIC 算法 调用 了 
tf.train.latest checkpoint 函数 返回 最 后 保存 的 模型 文件 绝对 路 径 ， 并 通过 saverrestore 
函数 在 当前 会 话 中 加 载 变量 字典 。 因 此 ， 在 训练 阶段 tfget variable 函数 将 创建 
embedding map 张 量变 量 。 而 在 预测 阶段 ， 该 函数 将 使 用 训练 好 的 模型 参数 。 


def create restore fn(self, checkpoint path, saver): 
if tf.gfile.IsDirectory (checkpoint path): 
checkpoint path = tf.train.latest checkpoint (checkpoint path) 
if not checkpoint path: 
raise ValueError ("No checkpoint file found in: $s" % checkpoint 
path) 


def restore fn(sess): 
tf.logging.info("Loading model from checkpoint: zs", 
checkpoint_path) 
saver.restore (sess, checkpoint_path) 
tf.logging.info ("Successfully loaded checkpoint: %s", 
os.path.basename (checkpoint path)) 
return restore fn 


saver 为 模型 的 保存 读 取 提供 了 十 分 简便 的 函数 接口 。 训 练 时 结合 tf.get_variable 
函数 ， 更 可 使 用 saver 实现 二 次 开机 后 的 持续 训练 。 需 要 注意 的 是 ， tf.train.latest_ 
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checkpoint 函数 将 会 读 取 训练 模型 文件 夹 的 的 模型 文件 存放 路 径 。 而 该 文件 的 路 径 是 
按照 绝对 路 径 保存 的 。 因 此 若 更 改 了 保存 模型 的 存放 位 置 后 还 需要 修改 checkpoint 
文件 中 的 路 径 信息 才能 正常 使 用 人 ftrain.latest_checkpoint 函数 。 


定义 模型 结构 操作 


NIC 算法 的 模型 结构 在 训练 时 需要 同时 根据 图 像 特征 和 单词 向 量 定义 损失 函数 
并 计算 预测 误差 ， 而 在 预测 时 则 只 需要 根据 图 像 内 容 由 训练 模型 推算 出 最 贴切 的 描述 
语句 。 因此, 网 络 的 结构 定义 在 训练 时 和 预测 时 是 不 同 的 。 在 程序 的 内 部 实现 中 可 以 
使 用 条 件 判断 语句 定义 不 同 的 网 络 结构 。 


在 show. and tell model.py 文件 中 的 build model 函数 可 以 看 到 LSTM 网 络 结构 
的 实现 程序 。 首 先 定 义 tnn.mn_celLBasicLSTMCell 类 的 对 象 lstm_cell 。 
BasicLSTMCell 表示 TensorFlow 中 的 基础 LSTM 网 络 。lstm_cell 被 定义 为 拥有 
selfconfig num_lstm_units 个 特征 长 度 的 网 络 节点 ， 以 元 组 形式 返回 预测 结果 和 状态 
值 。 仅 在 训练 时 使 用 t£nn.mn. cell.DropoutWrapper 类 对 lstm_cell 网 络 重 构 一 个 带 有 
Dropout 功能 的 节点 。 





lstm cell = tf.nn.rnn cell.BasicLSTMCell( 
num units-self.config.num lstm units, state is tuple-True) 


if self.mode -- "train": 
lstm cell - tf.nn.rnn cell.DropoutWrapper( 
lstm cell, 


input keep prob-self.config.lstm dropout keep prob, 
output keep prob-self.config.lstm dropout keep prob) 
随后 定义 LSTM 网 络 的 变量 作用 域 “lstm ， 并 令 其 内 部 各 网 络 参数 按照 类 函数 

selfinitializer 实现 的 均匀 分 布 方式 初始 生成 随机 参数 。 在 预测 时 ， 程序 将 根据 变量 作 
用 域名 称 自动 加 载 训练 好 的 模型 参数 。 因 网 络 是 通过 batch 数据 包 方式 训练 的 ， 所 以 
还 需要 使 用 lstm cell.zero_state 函数 创建 输入 图 像 特征 时 对 应 的 零 状 态 元 组 信息 
zero state, 作为 初始 时 的 LSTM 状态 值 。 在 训练 时 ， 默认 batch 包 中 含有 32 个 样本 ， 
而 在 预测 时 batch 包 中 的 样本 数量 为 1。 接 下 来 的 函数 lstm_scope.reuse_variables() 确 
保 lstm_cell 中 的 网 络 状态 参数 将 被 循环 更 新 使 用 。 


with tf.variable_scope("lstm", initializer=self.initializer) 





as lstm scope: 
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# Feed the image embeddings to set the initial LSTM state. 
zero state = lstm cell.zero state( 
batch size-self.image embeddings.get shape()[0], 
dtype-tf.float32) 
.: initial state = lstm cell(self.image embeddings, zero state) 


* Allow the LSTM variables to be reused. 
lstm scope.reuse variables () 


在 预测 时 定义 一 个 张 量 连接 操作 命令 ， 名 为 “initial_state”， 用 以 在 每 张 图 像 的 
项 测 起 始 阶段 通过 该 操作 创建 并 返回 一 个 初始 状态 张 量 。state_feed 表示 含有 上 一 刻 
的 预测 结果 和 状态 信息 的 占 位 符 。state_tuple 是 占 位 符 state feed 的 元 组 表示 形式 。 
lstm_cell 网 络 训练 时 要 求 输入 特征 为 2 维 ， 第 一 维 表示 样本 ， 第 二 维 表示 特征 。 不 同 
于 训练 时 selfseq embeddings 拥有 描述 语句 单词 的 向 量化 结果 ， 预 测 时 
self.seq_embeddings 仅 对 单 张 图 像 的 描述 单词 序列 进行 预测 。 此 时 ， 使 用 tfsqueeze 
消 数 对 数据 维 数 进行 压缩 确保 输入 有 效 数据 。 最 后 ,定义 名 称 为 “state” 的 操作 将 状 
态 元 组 信息 转换 为 张 量 信息 。 产 生 的 Istm outputs 张 量 表示 当前 预测 单词 的 特征 信息 ， 
默认 时 尺寸 最 大 为 [3,512]。 因 为 默认 时 ,将 按照 贪心 算法 ， 仅 保留 单词 置信 度 最 大 的 
3 个 预测 单词 序列 。 
if self.mode == "inference": 
# In inference mode，use concatenated states for convenient 


feeding andfetching. 
tf.concat(1, initial state, name-"initial state") 


# Placeholder for feeding a batch of concatenated states. 
state_feed = tf.placeholder (dtype=tf.float32, 
Shape- [None, 
sum(lstm cell.state size)], 
name-"state feed") 
State tuple - tf.split(1, 2, State feed) 


# Run a single LSTM step. 
lstm outputs, state tuple - lstm cell( 
inputs-tf.squeeze(self.seq embeddings, 
Squeeze dims=[1]), 
State-state tuple) 


# Concatentate the resulting state. 
tf.concat (1, State tuple, name="state") 
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在 训练 时 ， 基 于 定义 的 单个 LSTM 网 络 节点 ， 根 据 图 像 特征 在 零 状态 下 产生 的 
初始 状态 ， 依 次 向 网 络 中 输入 单词 向 量化 序列 ， 以 产生 序列 化 的 预测 结果 。 其 中 张 量 
sequence length 表示 batch 训练 包 对 应 样本 描述 语句 的 单词 数量 。 函 数 
tfnndynamic_rmn 专门 针对 序列 化 的 循环 网 络 提供 batch 包 式 的 预测 结果 。 
lstm_outputs 表示 batch 单词 序列 的 预测 特征 信息 ， 尺 寸 为 [32, N - 1, 512]。 其 中 , N 
表示 batch 包 样 本 中 描述 语句 的 最 大 单词 数量 。 因 为 需要 使 用 1 个 偏 移 位 置 预 测 下 一 
个 单词 ， 所 以 序列 的 样本 标签 数量 为 N - 1。 

else: 
# Run the batch of sequence embeddings through the LSTM. 
sequence length tf.reduce sum(self.input mask, 1) 


lstm outputs, | = tf.nn.dynamic rnn(cell-lstm cell, 
inputs-self.seq embeddings, 


sequence length-sequence length, 


initial state-initial state, 
dtype-tf.float32, 
scope-lstm scope) 
与 基于 语句 计算 均值 的 损失 函数 设计 相 比 ， 基于 单词 预测 均值 的 损失 函数 设计 方 
式 拥有 更 好 的 性 能 。 这 是 因为 在 预测 时 仅 有 图 像 输入 数据 ， 单词 输入 信息 是 由 算法 自 
身 产 生 并 再 次 输入 到 算法 中 的 。 而 训练 时 ,单词 信息 的 输入 直接 来 自 于 真 值 描述 语句 。 
基于 单个 单词 的 预测 均值 损失 函数 能 够 更 好 地 表征 训练 和 预测 过 程 。 而 基于 语句 的 损 
失 函 数 将 导致 训练 过 程 与 预测 过 程 存在 一 定 的 偏离 差异 。 


无 论 是 训练 时 或 预测 时 ， 上 述 lstm_outputs 预测 单词 的 特征 还 需要 连接 一 个 全 连 
接 层 , 才能 实现 对 单词 特征 的 分 类 预测 。 为 了 将 模型 优化 问题 转换 为 上 下 文 相关 的 序 
列 特征 单词 预测 问题 。 在 进入 全 连接 层 之 前 , 还 需要 对 特征 张 量 进行 2 维 转换 确保 有 
效 输入 。tfreshape 语句 将 lstm_outputs 的 维度 从 3 维 转换 为 2 维 ， 即 原先 是 以 [图 像 
样本 序号 ， 描 述 语句 单词 序号 ， 特 征 序号 ] 尺 十 转换 为 [单词 序号 ， 特征 序号 ] 的 形式 。 
在 全 连接 层 输入 的 batch 单词 样本 数量 是 输入 tf.nn.dynamic mn 函数 时 batch 样本 描 
述 语句 单词 的 数量 总 和 。 全 连接 层 返 回 的 logits 分 类 置信 度 值 ， 在 预测 阶段 将 被 用 于 
选择 分 类 结果 ， 而 在 训练 阶段 将 被 用 于 计算 损失 函数 。 


# Stack batches vertically. 
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lstm outputs = tf.reshape(lstm outputs, [-1, lstm cell.output 
size]) 


with tf.variable scope("logits") as logits scope: 
logits - tf.contrib.layers.fully connected( 
inputs-lstm outputs, 
num outputs-self.config.vocab size, 
activation fn-None, 
weights initializer-self.initializer, 
Scope-logits scope) 


在 预测 时 ， 定 义 操作 “softmax” 便 于 获取 单词 的 预测 分 类 结果 。 


if self.mode == "inference": 
tf.nn.softmax(logits, name="softmax") 


而 在 训练 时 ， 将 根据 batch 数据 的 所 有 单词 序列 预测 结果 计算 损失 函数 值 。 因 为 
不 同 图 像 描述 语句 长 度 不 同 , 在 具体 的 计算 过 程 中 使 用 了 self.input_mask 作为 有 效 单 
^ 词 的 掩 码 矩阵 weights。 函 数 tf.contrib.losses.add loss 将 根据 batch 损失 函数 估计 全 局 
损失 函数 total_loss。 从 图 的 定义 可 以 看 出 total loss 中 仅 含 有 1 个 batch. loss 节点 。 
当 模型 中 定义 了 多 个 损失 函数 节点 时 使 用 该 函数 可 以 返回 一 个 总 的 损失 函数 值 。 训 练 
时 加 入 tf.scalar summary 等 统计 函数 将 有 利于 TensorBoard 的 可 视 化 分 析 ， 便 于 验证 
模型 的 有 效 性 。 


else: 
targets = tf.reshape(self.target_seqs, [-1]) 
weights = tf.to float(tf.reshape(self.input mask, [-1])) 


$ Compute losses. 
losses = tf.nn.sparse softmax cross entropy with logits(logits, 
targets) 

batch loss = tf.div(tf.reduce sum(tf.mul(losses, weights)), 
tf.reduce sum(weights), 
name-"batch loss") 

tf.contrib.losses.add loss(batch loss) 

total loss = tf.contrib.losses.get total loss() 


# Add summaries. 

tf.scalar summary("batch loss", batch loss) 
tf.scalar summary("total loss", total loss) 
for var in tf.trainable variables(): 


à 238 
ww ai bbt. com OOOO000 


6 CNN+LSTM 看 图 说 话 T 


tf.histogram_summary (var.op.name, var) 


self.total_loss= total_loss 


神经 网 络 的 运行 


上 述 代码 实现 了 预测 网 络 和 训练 网 络 的 操作 定义 ， 但 并 没有 基于 TensorFlow 会 
话 的 Session 运行 语句 。 训 练 网 络 的 运行 语句 相对 简单 ， 只 需要 根据 损失 函数 的 返回 
值 定义 训练 操作 ， 再 运行 训练 操作 即 可 。 从 trainpy 文件 可 知 关键 代码 如 下 ， 函 数 
tf.contrib.layers.optimize_loss 输入 损失 函数 值 model.total loss . 全 局 学 习 步 长 
model.global _ step、 初始 学 习 率 learning rate. 优化 函数 类 型 、 梯度 裁剪 越界 操作 和 学 
习 率 更 新 函数 , 返回 损失 函数 优化 操作 。 其 中 , 学 习 率 更 新 函数 learning rate decay fn 
在 内 部 调用 了 TensorFlow 函数 tf.train.exponential decay, 对 应 的 是 一 个 指数 衰减 学 习 
率 更 新 操作 。 该 函数 的 输入 参数 由 model.global_step #1] learning_rate 共同 组 成 。 最 后 ， 
启用 tfcontrib.slim.learning.train 函数 开始 训练 。 该 函数 必须 指定 训练 优化 操作 、 模 型 
和 日 志文 件 存放 路 径 。 在 训练 耗 时 较 长 的 大 数据 时 ， 自 定义 tftrain.Saver 限制 训练 过 
程 中 保存 模型 的 最 大 数量 是 十 分 必要 的 。 

# Set up the training ops. 
train op - tf.contrib.layers.optimize loss( 
loss-model.total loss, 
global step-model.global step, 
learning rate- learning rate, 
optimizer-training ， config.optimizer, 


clip gradients-training | config.clip gradients, 
learning rate decay fn- learning rate decay fn) 


# Set up the Saver for saving and restoring model checkpoints. 
saver = tf.train.Saver(max to keep- training config.max 
checkpoints to keep) 


# Run training. 
tf.contrib.slim.learning.train( 
train op, 
train dir, 
log every n steps-FLAGS.log every n steps, 
graph-g, 
global step-model.global step, 
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number of steps-FLAGS.number of steps, 
init fn-model.init fn, 
saver-saver) 
从 run inference.py 文件 可 知 ， 在 对 单 张 图 像 内 容 的 摘要 进行 预测 时 主要 是 通过 
调用 inference_utils\caption_generator.py 文件 的 类 函数 CaptionGenerator.beam search 
实现 的 。 


beam search 函数 首先 使 用 函数 selfmodelfeed image 在 内 部 运行 会 话 操作 
“initial_state” 获 取 图 像 数据 在 LSTM 网 络 中 的 零 输 入 初始 状态 特征 。 返 回 列表 对 象 
initial_state， 因 只 输入 一 个 图 像 ， 所 以 initial state 只 有 一 个 列表 元 素 。 初 始 化 摘要 类 
型 Caption 对 象 initial_beam, 对 应 语句 sentence 含 有 一 个 序号 为 1 的 (selfvocab.start id) 
表示 语句 开始 特殊 标记 的 单词 元 素 。 初 始 状 态 张 量 为 initial_state[0]。 该 语句 的 平均 
预测 概率 logprob 和 得 分 score 均 为 0。 


def beam search(self, sess, encoded image): 
initial state = self.model.feed image (sess, encoded image) 


initial beam - Caption( 
Sentence-[self.vocab.start id], 
State-initial state[0], 
logprob=0.0, 
score=0.0, 
metadata=[""]) 


定义 类 型 为 TopN 的 对 象 partial_captions ， 用 于 保存 当前 预测 概率 最 大 的 
selfbeam size 种 可 能 的 预测 单词 序列 。 初 始 预测 结果 initial beam 被 加 入 到 
partial captions 中 。 类 型 为 TopN 的 对 象 complete captions 负责 保存 最 终 预测 概率 最 
大 的 selfbeam_size 种 摘要 预测 语句 。 类 型 为 TopN 的 对 象 在 进行 push 操作 时 ， 若 当 
前 队列 元 素数 量 小 于 selfbeam_size 则 直接 入 队列 ， 否 则 将 会 根据 元 素 的 重 载 函数 
_cmp_ 判 断 ， 确 保 入 队列 元 素 置信 度 大 于 队列 元 素 ， 并 进行 移 除 队 列 操作 ， 以 确保 
队列 长 度 始终 小 于 self.beam size, 

partial captions = TopN(self.beam size) 


partial captions.push(initial beam) 
complete captions - TopN(self.beam size) 


根据 配置 参数 限制 描述 语句 的 最 大 长 度 进行 描述 语句 的 单词 预测 。 函 数 
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partial captions.extract 返回 类 型 全 部 为 Caption 的 列 表 对 象 。 使 用 函数 
partial captions.reset 清空 partial_captions WR, 以 便 保 存 下 一 刻 预 测 概率 最 大 的 前 
self.beam size 种 可 能 的 预测 单词 序列 。self.model.inference_step 函数 内 部 将 根据 当前 
预测 语句 的 最 后 一 个 单词 ， 确 定 预测 模型 单词 向 量 输 入 占 位 符 "input_fee "操作 。 类 
似 的 ， 基 于 当前 语句 状态 信息 ， 确 定 预测 模型 状态 输入 占 位 符 "initial : state" 操 作 。 
self.model.inference_step 函数 内 部 将 运行 Re prac :0" 和 "lstm/state:0" 返 
回 输入 单词 的 预测 结果 softmax 和 状态 信息 new_states。 





# Run beam search . 

for _ in range(self.max caption length - 1): 
partial captions list - partial captions.extract() 
partial captions.reset() 


input feed - np.array((c.sentence[-1] for c in partial. 
captions list]) 
state feed - np.array([c.state for c in partial captions. 


list]) 


softmax, new states, _ = self.model.inference step (sess, 
input feed, 
state feed) 


依次 遍历 partial captions list 中 的 所 有 预测 单词 序列 结果 。 初 始 时 
partial captions list 只 有 1 个 含有 1 个 单词 的 摘要 语句 。 往 后 的 循环 中 最 多 只 有 
selfbeam size 个 语句 。 对 于 每 一 个 已 产生 的 单词 序列 ， 考虑 其 置信 度 最 大 的 前 
self.beam size 个 单词 预测 结果 保存 至 words and | probs 中 。 实 际 上 ， 为 了 搜索 置信 度 
最 大 的 前 selfbeam size 个 摘要 语句 ， 在 单词 预测 时 对 每 一 个 语句 考虑 前 
selfbeam_size 个 单词 预测 结果 来 近似 达到 最 优 目标 。 

for i, partial caption in enumerate (partial captions list): 
word probabilities = softmax[i] 
state = new . states[i] 
# For this partial caption, get the beam size most probable 
next words. 
words and probs - list(enumerate (word probabilities)) 


words and | probs. sort(key-lambda x: -x[11) 
words and probs = words and probs[0: self.beam size] 


若 预 测 置信 度 大 于 阔 值 le-12, 将 预测 单词 加 入 到 当前 单词 预测 序列 sentence 中 。 
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若 当 前 预测 单词 w 为 结束 符 单词 , 则 尝试 构建 Caption 并 将 其 加 入 到 complete: captions 
中 。complete_captions.push 函数 将 根据 元 素 的 置信 度 决 定 是 否 真正 加 入 。 若 w 不 为 
结束 符 单词 , 将 合并 后 的 语句 和 状态 信息 再 次 添加 到 partial captions 对 象 中 ,以 进行 
下 一 次 预测 。 若 partial. captions 对 象 为 空 ， 则 说 明 单 词 序列 已 经 全 部 以 结束 符 单词 预 
测 完毕 ， 提前 退出 搜索 。 在 计算 单词 置信 度 时 ， 车 变量 self.length normalization factor 
大 于 0 则 置信 度 为 预测 单词 的 平均 置信 度 ， 否则 表示 当前 预测 单词 的 置信 度 。 


* Each next word gives a new partial caption. 
for w, p in words and probs: 
if p < le-12: 
continue # Avoid log(0). 
sentence = partial caption.sentence + [w] 
logprob - partial caption.logprob + math.1log (p) 
Score - logprob 


if w == self.vocab.end id: 
if self.length_normalization_factor > 0: 
score /= len(sentence)**self.length normalization factor 
beam = Caption (sentence, state, logprob, score, 
metadata list) 
complete captions.push (beam) 
else: 
beam - Caption (sentence, state, logprob, Score, 
metadata list) 
partial captions.push (beam) 
if partial captions.size() -- 
# We have run out of partial candidates; happens when beam_size 


Break 

若 单词 序列 预测 过 程 中 没有 预测 结束 符 单词 ， complete captions 元 素 为 0， 返回 
partial captions 临时 预测 单词 序列 。 否 则 ， 对 complete captions 对 象 数据 置信 度 进 行 
降 排序 返回 。 


if not complete captions.size(): 
complete captions - partial captions 


return complete captions.extract (sort-True) 


最 后 ， 可 从 run inference.py 文件 了 解 到 ， 通 过 以 下 代码 将 单词 序号 转换 为 语句 
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进行 输出 。 


for i, caption in enumerate (captions): 
# Ignore begin and end words. 


sentence - [vocab.id to word(w) for w in 
caption.sentence[1:-1]] 

sentence = " ".join (sentence) 

print (" %d) *s (p=%£)" % (i, sentence, 


math.exp (caption. logprob) ) ) 
6.24 NIC 算法 的 实验 数据 与 结论 

语句 相似 性 评价 方法 

目前 图 像 摘要 问题 并 无 客观 严谨 的 评价 标准 ,即使 是 人 工 判断 亦 存在 差异 。 该 同 
题 尚 无 统一 评价 标准 。 在 机 器 于 译 领域 中 ,为 了 有 效 利用 人 工 标记 语句 评估 算法 性 能 ， 
人 们 提出 了 很 多 参考 评价 方法 。 相 关 评价 方法 如 表 6-7 所 不 : 





£67 图像 摘要 算法 评价 方法 








名 称 概要 
通过 位 置 无 关 的 词组 比较 统计 ， 返回 字符 串 语句 之 问 的 相似 度 得 分 。 所 有 参考 语句 产生 | 
— 个 相似 得 分 。 


KishorePapineni 等 于 2002 年 在 论文 BLEU:aMethodforAutomaticEvaluationofMachine- 
Translation 中 提出 

使 用 位 置 相关 的 子 字符 串 比较 统计 方法 计算 字符 串 语句 之 间 的 相似 度 得 分 。 每 个 参考 语句 
ROUGE | 产生 1 个 得 分 。 

C.-Y.Lin 等 于 2004 在 论文 Rouge:Apackageforautomaticevaluationofsum-maries 中 提出 

以 单词 为 基本 单元 进行 1 对 ! 的 比较 统计 。 根据 单词 配对 的 位 置 关 系 ， 从 多 个 参考 语句 中 
选择 位 置 上 错位 次 序 最 小 的 参考 语句 计算 两 语句 的 相似 度 得 分 。 每 个 参考 语句 产生 1 个 得 
METEOR | 分 。 

S.Banerjee 等 于 2005 年 在 论文 Meteor:Anautomaticmetricformtevaluationwithimproved- 








correlationwithhumanjudgments 中 提出 
对 参考 描述 语句 进行 连续 单词 短语 的 词 频 统计 。 基于 此 ， 对 语句 使 用 向 量化 表示 。 最 后 使 
CIDEr 用 向 是 内 积 相关 公式 计算 语句 的 相似 度 。 


R.Vedantam 等 于 2015 年 在 论文 CIDEr:Consensus-Basedimagedescriptionevaluation 中 提出 


BLUE 评价 方法 首先 统计 语句 中 长 度 为 的 词组 ngam 的 出 现 次 数 
count(n_gram). 令 多 个 人 工 标注 的 参考 语句 构成 集合 R， 待 评价 语句 为 c。 对 于 c 中 
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若 当 前 预测 单词 w 为 结束 符 单词 , 则 尝试 构建 Caption 并 将 其 加 入 到 complete_ captions 
中 。complete_captions.push 函数 将 根据 元 素 的 置信 度 决 定 是 否 真正 加 入 。 若 w 不 为 
结束 符 单词 , 将 合并 后 的 语句 和 状态 信息 再 次 添加 到 partial. captions 对 象 中 , 以 进行 
下 一 次 预测 。 若 partial captions 对 象 为 空 , 则 说 明 单词 序列 已 经 全 部 以 结束 符 单词 预 

E WEE, 提前 退出 搜索 。 在 计算 单词 置信 度 时 , 若 变量 self.length normalization factor 
AF 0 则 置信 度 为 预测 单词 的 平均 置信 度 ， 否 则 表示 当前 预测 单词 的 置信 度 。 


# Each next word gives a new partial caption. 
for w, p in words and probs: 
if p « 1e-12: 
continue # Avoid log(0). 
sentence = partial caption.sentence + [w] 
logprob = partial caption.logprob + math. log (p) 
score = logprob 


: if w == self.vocab.end id: 
E if self.length normalization factor » 0: 
Score /- len(sentence)**self.length normalization factor 
beam =  Caption(sentence, state, logprob, score, 
metadata list) 
complete captions.push (beam) 
else: 
beam =  Caption(sentence, state, logprob, Score, 
metadata list) 
partial captions.push (beam) 
if partial captions.size() -- 
# We have run out of partial candidates; happens when beam size 


Break 
若 单词 序列 预测 过 程 中 没有 预测 结束 符 单词 ，complete_captions 元 素 为 0， 返回 
; partial captions 临时 预测 单词 序列 。 和 否则 ， 对 complete captions 对 象 数据 置信 度 进行 
降 排 序 返回 。 


if not complete captions.size(): 
complete captions - partial captions 


return complete captions.extract (sort-True) 


最 后 ， 可 从 run inference.py 文件 了 解 到 ， 通 过 以 下 代码 将 单词 序号 转换 为 语句 
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进行 输出 。 


for i, caption in enumerate (captions): 
# Ignore begin and end words. 


sentence - [vocab.id to word(w) for w in 
caption.sentence[1:-1]] 

sentence = " ".join(sentence) 

print (" $d) $s (p-$f)" % (i, sentence, 


math.exp (caption.logprob) ) ) 
6.24 NIC 算法 的 实验 数据 与 结论 
语句 相似 性 评价 方法 


目前 图 像 摘要 问题 并 无 客观 严谨 的 评价 标准 ,即使 是 人工 判 断 亦 存在 差异 。 该 问 
题 尚 无 统一 评价 标准 。 在 机 器 翻译 领域 中 , 为 了 有 效 利 用 人 工 标记 语句 评估 算法 性 能 ， 
人 们 提出 了 很 多 参考 评价 方法 。 相 关 评价 方法 如 表 6-7 所 示 : 


表 6-7 ”图像 摘要 算法 评价 方法 


名 称 概要 
通过 位 置 无 关 的 词组 比较 统计 ， 返回 字符 串 语句 之 间 的 相似 度 得 分 。 所 有 参考 语句 产生 | 
gifs 个 相似 得 分 。 


KishorePapineni 等 于 2002 年 在 论文 BLEU:aMethodforAutomaticEvaluationofMachine- 
Translation 中 提出 

便 用 位 置 相关 的 子 字符 串 比 较 统计 方法 计算 字符 串 语句 之 间 的 相似 度 得 分 。 每 个 参考 语句 
ROUGE | 产生 1 个 得 分 。 

C.-Y.Lin 等 于 2004 在 论文 Rouge:Apackageforautomaticevaluationofsum-maries 中 提出 
以 单词 为 基本 单元 进行 1 对 1 的 比较 统计 。 根据 单词 配对 的 位 置 关 系 ， 从 多 个 参考 语句 中 
选择 位 置 上 错位 次 序 最 小 的 参考 语句 计 算 两 语句 的 相似 度 得 分 。 每 个 参考 语句 产生 1 个 得 


METEOR | 分 。 
S.Banerjee 等 于 2005 年 在 论文 Meteor:Anautomaticmetricformtevaluationwithimproved- 
















correlationwithhumanjudgments 中 提出 
对 参考 描述 语句 进行 连续 单词 短语 的 词 频 统 计 。 基于 此 ， 对 语句 使 用 向 量化 表示 。 最 后 使 
用 向 量 内 积 相关 公式 计算 语句 的 相似 度 。 

R.Vedantam 等 于 2015 年 在 论文 CIDEr:Consens 






CIDEr 
us-Basedimagedescriptionevaluation 中 提出 





BLUE 评价 方法 首先 统计 语句 中 长 度 为 n 的 词组 ngam 的 出 现 次 数 
count(n_gram). 令 多 个 人 工 标注 的 参考 语句 构成 集合 R， 待 评价 语句 为 c。 对 于 c 中 
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若 当 前 预测 单词 w 为 结束 符 单词 , 则 尝试 构建 Caption 并 将 其 加 入 到 complete_captions 
中 。complete_captions.push 商 数 将 根据 元 素 的 置信 度 决 定 是 否 真正 加 入 。 若 w 不 为 
结束 符 单词 , 将 合并 后 的 语句 和 状态 信息 再 次 添加 到 partial captions 对 象 中 ,以 进行 
下 一 次 预测 。 若 partial captions 对 象 为 空 ， 则 说 明 单 词 序列 已 经 全 部 以 结束 符 单词 预 
测 完 毕 , 提前 退出 搜索 。 在 计算 单词 置信 度 时 , 若 变量 self.length normalization factor 
AF 0 则 置信 度 为 预测 单词 的 平均 置信 度 ， 否则 表示 当前 预测 单词 的 置信 度 。 





* Each next word gives a new partial caption. 
for w, p in words and probs: 
if p < le-12: 
continue # Avoid log(0). 
sentence - partial caption.sentence * [w] 
logprob - Partial caption.logprob 4 math.log (p) 
Score = logprob 


if w == Self.vocab.end id: 
if Self.length normalization factor > 0: 
score /= len(sentence)**self.length normalization factor 
beam = Caption (sentence, state, logprob, score, 
metadata list) 


complete captions.push (beam) 
else: 


beam = Caption (sentence, state, logprob, Score, 
metadata list) 


partial captions.push (beam) 
if partial captions.size() == 0: 
# We have run out of partial candidates; happens when beam size 


Break 
若 单词 序列 预测 过 程 中 没有 预测 结束 符 单词 ， complete captions 元 素 为 0， 返回 


partial captions 临时 预测 单词 序列 。 否 则 ， 对 complete captions 对 象 数据 置信 度 进行 
降 排序 返回 。 


if not complete captions.size(): 
complete captions - partial captions 


return complete captions.extract (sort-True) 


最 后 ， 可 从 run inference.py 文件 了 解 到 ， 通过 以 下 代码 将 单词 序号 转换 为 语句 


à 242 
ww ai bbt. com OOOO000 


6 CNN«LSTM 看 图 说 话 


进行 输出 。 


for i, caption in enumerate (captions): 
# Ignore begin and end words. 


sentence - [vocab.id to word(w) for w in 
caption.sentence[1:-1]] 

sentence = " "join (sentence) 

print(" $d) $s (p=%f)" % (i, sentence, 


math.exp (caption.logprob) ) ) 
6.24 NIC 算法 的 实验 数据 与 结论 
语句 相似 性 评价 方法 


目前 图 像 摘要 问题 并 无 客观 严谨 的 评价 标准 , 即使 是 人 工 判断 亦 存在 差异 。 该 问 
题 尚 无 统一 评价 标准 。 在 机 器 翻译 领域 中 , 为 了 有 效 利用 人 工 标记 语句 评估 算法 性 能 ， 
人 们 提出 了 很 多 参考 评价 方法 。 相 关 评价 方法 如 表 6-7 所 示 : 





表 6-7 图 像 摘要 算法 评价 方法 














通过 位 界 无 关 的 词组 比较 统计 ， 返 回 字符 串 语句 之 间 的 相似 度 得 分 。 所 有 参考 语句 产生 I 
个 相似 得 分 。 

KishorePapineni 等 于 2002 年 在 论文 BLEU:aMethodforAutomaticEvaluationofMachine- 
Translation 中 提出 

使 用 位 置 相关 的 子 字 符 串 比较 统计 方法 计算 字符 串 语 名 之 问 的 相似 度 得 分 。 每 个 参考 语句 
产生 1 个 得 分 。 

C.-Y.Lin 等 于 2004 在 论文 Rouge: Apackageforautomaticevaluationofsum-maries 中 提出 

以 单词 为 基本 单元 进行 1 对 ! 的 比较 统计 。 根 据 单词 配对 的 位 置 关系 ， 从 多 个 参考 语句 中 
选择 位 置 上 错位 次 序 最 小 的 参考 语句 计算 两 语句 的 相似 度 得 分 。 每 个 参考 语句 产生 1 个 得 
分 。 

S.Banejee 等 于 2005 年 在 论文 Meteor:Anautomaticmetricformtevaluationwithimproved- 






BLUE 





METEOR 


correlationwithhumanjudgments 中 提出 
对 参考 描述 语句 进行 连续 单词 短语 的 词 频 统计 。 基 于 此 ， 对 语句 使 用 向 量化 表示 。 有 最 后 使 
用 向 量 内 积 相关 公式 计算 语句 的 相似 度 。 

R Vedantam 等 于 2015 年 在 论文 CIDEr: Consensus-Basedimagedescriptionevaluation 中 提出 





CIDEr 


BLUE 评价 方法 首先 统计 语句 中 长 度 为 n 的 词组 n_gram 的 出 现 次 数 
count(n_gram)。 令 多 个 人 工 标 注 的 参考 语句 构成 集合 R， 待 评价 语句 为 c。 对 于 c 中 
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任意 一 个 长 度 为 n ARA n gram, 定义 该 词组 的 匹配 次 数 为 countuip (n_gram)。 则 语 
名 c 的 所 有 词组 n_gram 的 匹配 相似 度 为 p,。 计 算 公式 如 下 所 示 : 


countclip (n gram) = min(maxreR(countr(n_gram)),counte(n_gram)) 


E Xn gramec count ip (n gram) 


Pn = 
T Èn gramec count, (n gram) 


例如 ， 待 评价 语句 “the the the the the the the" 和 两 个 参考 语句 “The cat is on the 
mat" "There is a cat on the mat", 34 n-1 时 ， 仅 有 单词 “the” 存在 匹配 ， 且 在 第 一 个 
参考 语句 中 匹配 次 数 最 大 为 2， 第 二 个 语句 的 匹配 次 数 为 1。 此 时 ， 选 择 匹配 最 大 匹 
配 值 参 与 计算 ,ps = 2. M n-2 时 ， 待 评价 语句 中 的 “the the” 出 现 的 次 数 为 6， 而 
参考 语句 中 最 大 出 现 次 数 为 0。 此 时 p, = o 显然 ， 当 n 取 值 较 小 时 匹配 次 数 表 定 大 
Ton 取 值 较 大 的 匹配 次 数 。n 越 大 能 够 度量 的 语义 确定 性 越 大 ， 但 度量 能 力 越 弱 。 另 
外 ， 仅 使 用 pn 统计 匹配 次 数 ， 无 法 度量 待 评价 语句 的 宛 余 信息 。 考 虑 另外 一 个 例子 ， 
两 个 待 评价 机 器 翻译 语句 “I always invariably perpetually do.” Fil “ I always do.", 与 
之 对 应 有 三 个 参考 语句 为 “I always do.", “I invariably do.", “I perpetually do." Pi 
个 待 评价 语句 Pi 值 相同 , 且 第 一 个 待 评价 语句 中 含有 更 多 的 参考 语句 词汇 。 但 实际 上 ， 
第 二 个 待 评价 语句 更 加 言 简 意 凡 ， 第 一 个 待 评价 语句 的 单词 分 散在 多 个 参考 语句 中 。 
对 此 ，BLUE 方法 还 提出 使 用 基于 语句 长 度 的 惩罚 因素 BP。 计 算 公 式 如 下 ,其 中 c 
表示 待 评价 语句 长 度 ，r 表示 参考 语句 中 语句 长 度 与 之 最 相似 的 语句 长 度 。N 表示 度 
量词 组 的 最 大 长 度 ， 建 议 值 为 4。 


1 ifc»r 


m fa- ifc<r 


N 
1 
BLUE = BP - exe) logp,) 


n=1 


BLUE 方法 计算 简单 , 在 机 器 翻译 领域 使 用 较为 广泛 。 但 该 方法 使 用 的 是 与 位 置 
无 关 的 单词 匹配 统计 , 难以 度量 与 词 序 相关 的 语义 信息 。 例如 , 令 两 个 待 评价 语句 为 
“police kill the gunman” 和 “the gunman kill police”。 若 对 应 的 参考 语句 为 “police killed 
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the gunman"。 两 待 评价 语句 含义 完全 不 同 ， 但 它们 的 BLUE 值 相同 。 对 此 , ROUGE 
方法 和 METEOR 方法 分 别 对 其 进行 了 改进 。 


ROUGE 方法 定义 最 长 共 序 子 序 列 操作 来 度量 字符 串 语句 的 匹配 程度 。 令 序列 
Y = [yi yz 为] 与 序列 X = [xa X2 xm] 的 共 序 子 序列 为 2 = [z1,22,…,2k]。 若 Z 个 
为 空 ， 则 一 定 存在 一 个 升序 的 整数 序列 [ii uiu], Eyo = z1 = Xa。 其 中 
o € [Un - kJ; Le [Lk], i € [Lm] Yk MRK, DRAKA TST 定义 
最 大 共 序 子 序列 串 长 度 函数 为 LCS。 对 于 长 度 为 m 的 待 评价 语句 c 和 长 度 为 n 的 参 
考 语句 r， 可 按照 如 下 公式 计算 语句 的 匹配 精度 P 和 覆盖 率 R， 从 而 进一步 得 出 
ROUGE 的 评价 值 。 其 中 ，p 表 示 权 重 参数 ， 建 议 值 为 1。 对 于 之 前 “police killed the 
gunman” 例子 ， 两 个 待 评价 语句 的 LCS(X, 只 分 别 为 0.75 和 0.5, ROUGE 方法 的 评价 
值 分 别 为 0.75 和 0.5。 因 此 , 第 一 个 待 评价 语句 更 高 。ROUGE 77 法 的 计算 公式 如 下 。 


LCS(X, Y 
R= 
m 


LCS(X, 
p =- SD 
n 


1+ g?)RP 
ROUGE = OE 
METEOR 方法 提出 基于 单词 的 1 对 1 配对 比较 方法 。 输 入 两 个 字符 串 语句 ， 
METEOR 方法 进行 3 次 单词 的 1 对 1 配对 。 第 一 次 配对 时 ， 仅 配对 拼写 完全 相同 的 
单词 。 第 二 次 配对 允许 配对 拼写 不 同 但 词根 相同 的 单词 , 例如 “kill” 和 “killed ”等 。 
第 三 次 配对 时 允许 配对 同义词 。 当 配对 过 程 中 存在 多 种 可 能 性 时 , 最 后 使 用 动态 规划 
算法 选择 配对 位 置 关系 “交叉 ”次 数 最 少 的 配对 情况 。 例 如 在 第 一 次 配对 时 待 评价 语 
句 出 现 了 x 次 单词 “apple”， 而 参考 语句 出 现 了 y 次 单词 “apple"。 则 总 共 可 能 存在 
Cr DEAF] He. WIFI A) c fll r 中 两 对 可 能 的 匹配 单词 (ci, wy) 和 (cx,n), 若 这 些 
单词 在 位 置 上 满足 公式 (pos(ci) — pos(ck)) x (posli) — pos(rx)) < 0 则 表示 它们 的 
配对 存在 位 置 上 的 “交叉 "。 完 成 一 次 配对 选择 后 ， 进 入 下 一 次 配对 时 将 不 再 使 用 之 
前 已 经 配对 过 的 单词 。 根据 单 词 的 匹配 结果 得 出 一 对 语句 的 相似 度 Fmean。 计算 公式 
WTF. Arh, R, PRAHAS ROUGE 方法 类 似 。 只 是 这 里 使 用 的 单词 匹配 值 。 
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此 外 ,还 要 根据 语句 单词 的 配对 情况 对 语句 进行 分 块 。 分 析 两 语句 的 语序 相关 性 。 
配对 单词 在 源 语句 和 配对 语句 中 的 位 置 相 邻 且 相 对 位 置 保持 不 变 的 集合 组 成 一 个 分 
块 chunks。 从 图 6-10 可 以 看 出 对 于 上 一 个 例子 的 分 块 结果 。 图 6-10 左 图 被 的 分 块 
chunks 数量 为 1， 右 图 的 分 块 数量 chunks 为 3。 


FW kno r "TU police killed the gunman 


police kill the gunman the gunfían kill police 
图 6-10 METEOR 方法 单词 配对 分 块 示意 图 


METEOR 方法 的 度量 值 由 语句 连贯 性 惩罚 值 Penalty 和 单词 匹配 度量 值 Fmean 
共同 决定 。chunks_num 表示 匹配 后 的 分 块 数量 。 match_num 表示 单词 匹配 数量 。 对 
于 之 前 “police killed the gunman” 的 例子 ,在 METEOR 方法 中 Fmean 都 为 1。 但 Penalty 
值 分 别 为 0.9921875 和 0.7890265。 因 此 ，METEOR 方法 的 评价 值 分 别 为 0.9921875 
和 0.7890265。 特 别 的 ， 当 单词 匹配 次 数 为 0 时 ， 令 Penalty = 0.5, METEOR = 0。 


chunks num? 
Eenalty Osx Catch iz) 


METEOR = Fmean x (1 — Penalty) 


与 之 前 介绍 的 三 种 机 器 翻译 评价 方法 相 比 较 , CIDEr 方法 是 专门 针对 图 像 摘要 问 
题 提 出 的 评价 方法 。 它 的 特点 是 统计 所 有 图 像 摘 要 样本 的 词 频 信息 , 并 基于 此 构建 语 
名 的 特征 向 量 。 通 过 度量 特征 向 量 来 表示 两 个 图 像 摘要 语句 的 相似 程度 CIDEr(c', Sj) 
相关 计算 公式 如 下 。 其 中 ，ci 表 示 待 评价 语句 ，Si 表 示 对 应 的 参考 语句 集合 。8, 可 能 
由 N 条 语句 sij 构 成 。 在 MSCOCO 数据 集中 一 张 图 像 对 应 有 5 条 参考 描述 语句 。gn(ci) 
和 g"(sij) 分 别 表示 待 评价 语句 和 参考 语句 的 特征 向 量 。 它 的 每 一 个 分 量 由 长 度 为 n 的 
对 应 词组 由 公式 gx(ci) 和 gx(sij) 计 算得 出 。 hx(sij) 表 示 词 组 k 在 语句 sij 中 的 计数 统计 。 
0 表示 长 度 为 "的 词组 词典 集合 。Zwieo hi(sij) 表 示 语句 sij 对 应 长 度 为 n 的 单词 计数 统 
tHo RTENE. Y, c; min(1, Xa hx(spg)) 表 示 词组 k 对 应 数据 集中 被 描述 图 像 的 
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数量 。 


a (5) o ED (t) 


Ewen hu (si) = Ziper min(1, Y, hx(spa)) 


1c g"(cQ:g"(su) 
CIDErp (co S) 2 — ) 7 nr Ni 
rn(eu Si) = = - Lg" Cli ]g" (sis) Il 


N 
1 
CIDEr(c, Si) = x2. CIDEr, (cu Si) 
n=1 


NIC 算法 在 2015 年 MSCOCO 图 像 摘要 算法 竞赛 中 的 相关 结果 


在 2015 年 春季 举办 的 MSCOCO 图 像 摘要 算法 竞赛 中 ， 竞 赛 举 办 方 采 用 CIDEr 
作为 算法 的 评价 标准 。 从 2015 年 竞赛 MSCOCO 官方 网 站 公布 的 非 公 开 数 据 测 试 结 
果 来 看 42。 以 CIDEr 方法 获取 的 度量 数列 为 标准 ， 通 过 公式 pxr = RO ell gy 
这 些 序列 的 皮尔 森 相关 值 , 可 知 以 上 评价 方法 返回 结果 是 高 度 相 关 的 。 它 们 只 在 人 工 
标注 结果 评价 方面 存在 较 大 差异 。 表 6-8 由 NIC 原 论文 给 出 。 它 显示 了 人 工 标注 结果 
在 不 同 的 评价 方法 下 使 用 40 个 测试 案例 , 与 MSCOCO2015 图 像 摘要 竞赛 的 15 个 参 
赛 算法 的 排序 结果 。BLEU-4 方 法 将 人 工 标注 的 结果 排 在 了 非常 靠 后 13 的 位 置 。CIDEr 
则 要 好 很 多 ， 人 工 标注 的 排序 结果 为 6。 人工 标注 语句 在 METEOR 评价 方法 上 取得 
了 最 好 的 结果 ， 排 序 为 3。 


表 6-8 图像 摘 要 评价 方法 性 能 对 比 
皮尔 森 相关 值 (CIDEr) 








人 工 标 注 结果 评价 排序 







METEOR 


| 
fat 
从 表 6-8 可 以 看 出 目前 的 图 像 摘 要 评价 算法 尚 不 能 很 好 地 反映 图 像 摘要 算法 的 


42 http://mscoco.org/dataset/#captions-leaderboard 
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实际 性 能 。 各 评价 算法 都 存在 较 大 的 相关 性 ,上 且 对 人 工 标注 语句 的 度量 存在 一 定 的 误 
差 。 语 句 相似 性 标准 方法 的 提升 对 图 像 摘要 问题 研究 会 有 本 质 上 的 帮助 。 在 2015 年 
竞赛 时 NIC 算法 取得 了 第 一 。 当 时 CIDEr 评价 标准 的 排序 结果 如 表 6-9 所 示 。 


表 6-9 2015MSCOCO 竞赛 算法 评价 前 五 的 结果 












CIDEr 
0.943 
0.931 
0.917 
0.912 
0.886 
0.854 


METEOR ROUGE 
0.254 0.53 

0.248 
0.242 
0.247 
0.238 
0.252 0.484 0.217 


BLEU-4 














早 前 版 本 的 NIC 算法 















其 他 算法 名 称 和 相关 资料 参见 
MSCOCO 官方 网 站 公布 的 测试 结果 42 
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NIC 算法 含有 样本 和 输入、 图 像 特征 向 量化 、 单 词 向 量化 、LSTM 网 络 建 模 等 多 个 
模块 。 它 们 都 对 最 终 的 算法 性 能 起 到 关键 作用 。 实 际 上， 前文 详细 介绍 的 NIC 算法 
已 经 进行 了 优化 ， 各 模块 的 改进 点 如 下 : 


© 在 ImageNet 的 5 备 选 分 类 问题 中 Inception_v3 神经 网 络 模型 和 GoogLeNet 神经 
网 络 模型 的 分 类 精度 分 别 对 应 6.67% 和 4.8%。 在 图 像 摘要 问题 中 Inception v3 
网 络 同样 表现 出 更 好 的 性 能 。 图 像 特征 向 量化 方面 使 用 Inception v3 模型 替换 
GoogLeNet 模型 可 提升 图 像 的 特征 概括 能 力 ， 对 应 的 BLUE-4 的 提升 幅度 约 为 
2%。 

。 ”优化 搜索 算法 从 全 局 出 发 从 可 能 的 预测 序列 中 挑选 出 最 优 的 预测 结果 。 与 采样 
方式 或 贪心 方式 相 比 较 ， 使 用 优化 搜索 方法 输出 预测 摘要 信息 能 够 获取 更 好 结 
有 果 ， 对 应 的 BLUE-4 的 提升 幅度 约 为 2%。 

。 “在 完成 约 1000000 此 初始 迭代 训练 后 ， 再 使 用 2000000 次 迭代 允许 训练 优化 
Inception_v3 的 网 络 模型 参数 可 是 算法 性 能 得 到 进一步 提升 。 第 二 次 训练 是 在 第 
一 次 基础 上 进行 的 ， 因 学 习 步 长 是 根据 指数 函数 衰减 的 ， 二 次 训练 的 学 习 步 长 
远 比 初始 时 小 很 多 。 二 次 训练 称 为 微调 训练 。 微 调 后 算法 整体 性 能 得 到 进一步 
提升 。 使 用 二 次 训练 对 图 像 特征 向 量化 模型 进行 微调 。 微 调 后 可 获取 更 小 的 损 
RRR, NR BLUE-4 的 提升 幅度 约 为 1.5%。 

。 与 语句 的 损失 函数 设计 相 比 ， 基 于 单词 的 损失 函数 设计 能 够 更 好 地 表征 训练 过 
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程 与 预测 过 程 。 此 时 ，BLUE-4 的 提升 幅度 约 为 1%。 
。 ”使 用 5 个 经 过 1 次 初始 训练 和 10 个 经 过 2 次 微调 训练 生成 的 预测 模型 分 别 产 生 
图 像 摘 要 结果 ,并 根据 置信 度 挑 选 出 最 优 结果 。 模 型 集成 可 令 BLUE-4 提升 1.5%。 


NIC 算法 改进 前 后 在 公开 的 MSCOCO 数据 上 的 测试 结果 对 比如 表 6-10 所 示 。 


表 6-10 NIC 改进 后 的 精度 提升 对 比 


BLEU-4 METEOR 






CIDER 











初始 版 本 的 NIC 算法 
改进 后 的 NIC 算法 
6-11 显示 的 是 NIC 算法 按照 上 表 进行 改进 前 后 的 输出 对 比例 图 。 测 试 时 随机 
挑选 了 20 张 图 像 进 行 测试 。 通 过 人 工 比较 发 现 19 张 图 输出 结果 都 有 所 改善 , 仅 1 
张 图 输出 语句 描述 效果 变 差 。 pum 


aee Rem 颜色 说 明 
initialModet: A close up of y eet ME a — 
E 





32.1 






"RT. 








x ME. oom E 
4 einst ide irf a : 






a NBestModel: A woman : 
* ^ holding a banana up to her ap os 
jfece. 


bears sitting on top of 
rocks. 


图 6-11 dant NIC 算法 输出 结果 对 比 图 


6.3 ”小结 


图 像 处 理 和 自然 语言 处 理 在 原先 似乎 一 直 是 并 无 关联 的 两 个 领域 ， 但 随 着 深度 学 
习 研 究 的 不 断 发 展 ， 目 前 已 经 有 多 种 算法 模型 将 图 像 的 CNN 和 用 于 处 理 文本 的 


LSTM 进行 了 融合 ， 本 章 介绍 的 ReInspect 和 NIC 就 是 其 中 典型 的 代表 。 


通过 本 章 的 介绍 ， 可 以 看 到 使 用 TensorFlow 实现 各 种 CNN+LSTM 的 模型 的 过 
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程 并 不 复杂 ， 应 用 也 可 以 快速 搭建 。 在 TensorFlow 的 基础 上 ， 探 索 新 的 领域 和 尝试 
新 的 应 用 都 将 充满 着 无 限 可 能 。 
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损失 函数 与 优化 算法 


损失 函数 与 目标 函数 优化 算法 是 深度 学 习 问题 中 的 两 个 重要 概念 。 这 两 者 有 相当 
的 独立 性 ， 并 都 对 训练 网 络 的 最 终结 果 起 到 关键 的 作用 。 





损失 函数 (loss fanction， 也 叫做 代价 函数 cost function ) 是 从 统计 学 的 角度 衡量 
解决 方案 错误 程度 的 量化 函数 。 目前 的 机 器 学 习 算法 都 基于 统计 学 习 理论 , 其 重点 在 
于 通过 有 限 的 训练 数据 归纳 出 总 体 平均 意义 下 的 最 优 规律 ， 用 有 限 的 样本 逼近 全 局 最 
优 的 概率 分 布 ， 损 失 函 数 的 作用 就 是 衡量 逼近 程度 。 对 于 机 器 学 习 问 题 来 说 , 给 出 量 
化 指标 ， 确 定 优化 求解 方向 ,是 解决 问题 的 第 一 步 。 从 这 个 意义 上 说 ， 损 失 函 数 的 设 
计 体 现 了 人 们 对 待 求解 问题 的 理解 程度 。 设计 优秀 的 损失 函数 ， 不 但 为 问题 定义 了 一 
个 明确 的 量化 指标 , 还 能 够 提高 训练 优化 速度 ， 因此 是 机 器 学 习 领 域 非常 重要 的 一 个 
部 分 。TensorFlow 内 置 了 多 种 常用 损失 函数 的 实现 ， 尤其 是 ， 针 对 大 数据 训练 ， 
TensorFlow 提供 了 类 别 采样 (Candidate Sampling ) 损失 函数 ， 对 减少 训练 过 程 中 的 
内 存 消耗 和 计算 量 有 非常 大 的 帮助 。 

男 一 方面 ， 目标 函数 的 优化 问题 也 是 机 器 学 习 中 的 核心 问题 之 一 ， 历来 是 学 术 界 
关注 的 焦点 。 在 研究 和 实际 应 用 中 ， 除了 最 常用 的 随机 梯度 下 降 ( Stochastic Gradient 
Descent, SGD) 以 外 ， 还 相继 提出 了 动量 优化 算法 ( Momentum )、ADAM 算法 等 ， 
这 些 算法 策略 不 仅 加 快 了 求解 速度 ， 还 同时 降低 了 超 参数 ( 如 学 习 率 ) 对 求解 过 程 的 
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影响 ,简化 了 训练 过 程 ， 可 谓 是 有 了 长 足 的 进步 。 需 要 强调 的 是 , 考虑 到 内 存 消耗 和 
计算 量 等 因素 ， 在 深度 学 习 领域 提 及 的 目标 函数 优化 方法 一 般 是 指 支持 数据 集 分 块 
( mini-batch ), 并 按照 分 块 单元 数据 包 训练 的 优化 算法 。 本 章 会 重点 对 梯度 下 降 算法 、 
RMSProp, ADAM 算法 在 TensorFlow 中 的 实现 进行 详细 介绍 。 


本 章 将 首先 介绍 TensorFlow 中 已 实现 的 几 个 常用 目标 函数 优化 策略 ， 强 调 了 整 
体 数据 集 优化 与 采样 batch 包 数 据 优 化 的 差异 ， 概 述 RMSPropOptimizer 、 
AdamOptimizer 和 GradientDescentOptimizer 三 个 类 对 应 的 目标 函数 优化 算法 及 其 对 
比 。 其 次 会 介绍 对 大 数据 较为 适用 的 类 别 采 样 损失 函数 的 相关 概念 ， 重 点 介绍 
nce loss 和 sampled softmax loss 函数 对 应 的 类 别 采 样 损 失 函数 的 相关 概念 。 


7.1 目标 水 数 优 化 策略 


7.1.1 梯度 下 降 算 法 


梯度 下 降 算法 是 一 种 非常 简单 的 目标 函数 优化 算法 。 以 计算 函数 (x) 的 最 小 值 为 
Bl, 梯度 下 降 算 法 如 算法 7-1 所 示 。 


算法 7-1: 梯度 下 降 算 法 

DRI HARE E) 

步骤 2 自 变量 x 向 梯度 反方 向 移动 。x = x 一 r* f(x)。 其 中 ,7 为 学 习 率 。 

PRS ”循环 计算 步骤 1 和 2， 直 至 达到 最 大 循环 次 数 或 满足 fx) 收敛 条 件 。 则 返回 x 作为 函数 f(%) 的 
最 小 值 近似 解 。 


从 梯度 下 降 法 可 以 看 出 学 习 率 r 的 选取 对 算法 的 效果 起 到 关键 的 作用 。 一 -方面 ， 
如 果 r 太 大 , 则 可 能 出 现 /zx) 值 呈 波 浪 形 浮动 无 法 收敛 。 另 一 方面 , 如 果 r 太 小 , 则 x 的 
移动 将 会 非常 缓慢 ， 收 敛 过 程 将 会 非常 耗 时 。 


TensorFlow 中 定义 了 实现 深度 神经 网 络 中 多 种 经 典 类 型 的 网 络 层 ， 包 括 卷 积 层 、 
池 化 层 、 激 活 层 、 全 连接 层 甚 至 是 循环 网 络 层 等 。 这 些 网 络 层 对 应 的 输出 函数 可 能 是 
线性 的 也 可 能 是 非 线 性 的 。 其 中 , 线性 函数 (x) 是 指 同时 满足 条 件 f(a + b) = f(a) + 
f (b) E.f(k x a) = kx 了 f(a) 的 水 数 。 以 矩阵 运算 f(x) = Wjx 和 g(x) = Wx 为 例 , 显然 
有 f(g(x)) = WrWyx = Wx。 由 此 可 见 ， 增 加 线性 网 络 的 层 数 并 不 能 增强 神经 网 络 的 
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函数 表示 范围 。 因 此 ,要求 在 模型 中 添加 非 线性 网 络 层 构建 深度 神经 网 络 ， 以 便 通 近 
各 种 不 同 的 分 类 或 预测 模型 函数 。 但 为 了 便于 优化 模型 函数 ， 目 前 TensorFlow 所 有 
的 网 络 层 的 梯度 都 要 求 是 线性 的 即刻 (x) 为 线性 函数 。 


令 训练 样本 集合 构成 目标 函数 /(x)， 其 中 x 表示 待 求解 的 模型 参数 。 以 仅 有 1 个 
输出 结果 的 单个 全 连接 层 为 例 , 显然 该 函数 的 梯度 是 线性 的 。 模型 参数 x 对 应 样本 i 的 
优化 目标 梯度 向 量 为 fx) = FG) 一 六， 其 中 x 表示 网 络 模型 参数 ，y 表示 目标 值 向 
量 ，fi(x) 表 示 样本 i 的 单 层 网 络 函数 输出 结果 。 令 m 表 示 单 次 训练 分 组 batch 数据 包 
中 的 样本 数量 ， 则 利用 梯度 函数 的 线性 特质 ， 可 以 近似 得 出 模型 参数 x 对 应 m 个 样本 
的 梯度 Peo f Go) = XI (09 — y) SR, H batch 大 小 与 数据 集 样本 数量 相同 时 ， 
计算 的 梯度 为 训练 集 全 局 最 优 梯度 ， 此 时 更 新 模型 参数 x = x — rZ f" (9 往往 能 
得 到 较 理想 的 结果 。 


然而 , 对 于 数据 量 较 大 的 复杂 模型 ， 训练 过 程 需要 反复 计算 训练 集 产生 的 加 权 梯 
度 。 这 将 导致 较 长 的 训练 耗 时 。 对 于 训练 样本 数量 庞大 的 情况 ， 可 以 假设 对 样本 集 分 
块 后 计算 的 梯度 存在 高 度 的 相似 性 ， 因此 可 以 通过 样本 集 的 部 分 数据 计 算 梯度 来 近似 
表示 全 局 最 优 梯 度 。 使 用 单个 样本 计算 梯度 的 极端 例子 被 称 为 在 线 学 习 。 与 之 相 比 ， 
一 般 使 用 几 十 至 几 百 个 样本 构成 的 batch 数据 包 方式 计 算 的 梯度 一 般 能 够 得 到 更 好 的 
结果 。 在 使 用 batch 数据 包 训练 时 ， 训练 样本 输入 的 先后 顺序 非常 重要 。 如 果 数 据 样 
本 不 均衡 ， 比 如 正 样本 是 负 样 本 个 数 的 1/100， 当 数 据 包 中 连续 出 现 同 种 类 别 的 样本 
时 , 将 很 可 能 导致 过 拟 合 , 部 分 类 别 样本 的 权重 更 新 被 吞噬 。 而 对 样本 序列 的 随机 排 
序 ， 能 够 在 一 定 程度 上 较 好 的 解决 样本 类 别 的 非 均衡 问题 。 此 时 目标 函数 优化 策略 即 
为 随机 梯度 下 降 。Tensorflow 中 使 用 GradientDescentOptimizer 实现 了 梯度 下 降 算 法 。 
而 随机 梯度 下 降 方法 中 batch 数据 包 中 的 样本 顺序 和 数据 包 的 大 小 需要 由 外 部 随机 函 
数 采样 控制 。 


随机 梯度 下 降 方法 简单 ,收敛 速度 快 , 是 使 用 较为 广 泛 的 优化 算法 。 但 它 也 存在 
易 陷入 局 部 最 优 导致 难以 获取 最 优 解 的 缺点 。 这 有 两 个 方面 的 原因 。 一 方面 是 因为 网 
络 层 模型 参数 上 使 用 相同 的 学 习 率 进行 梯度 更 新 。 另 一 方面 是 因为 学 习 率 参数 完全 由 
人 工 经 验 输入 。 对 此 ，RMSProp、Adam 等 算法 分 别 对 其 做 了 相应 的 改进 。 
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7.1.2. RMSProp 优化 算法 


在 随机 梯度 下 降 算法 中 对 于 所 有 网 络 层 的 梯度 分 量 使 用 了 相同 的 学 习 率 进行 梯 
度 更 新 , 然而 这 种 处 理 在 有 些 时 候 是 不 恰当 的 。 如 图 7-1 BER, 令 图 像 横 轴 w: 与 纵 轴 
Ww 表示 线性 模型 中 两 个 独立 无 关 的 权重 分 量 ,l0ss 表 示 损 失 函 数值 。7-1 左 图 表示 wi 、 
Wz 构成 的 等 损失 函数 值 曲线 图 ， 右 图 表示 w; 、w, 构 成 的 等 错误 曲线 与 对 应 的 损失 函 
数 信 。 从 图 中 我 们 可 以 看 出 w, 、w 构 成 的 等 损失 函数 值 曲线 为 同心 椭圆 。 与 使 用 相 
辣 的 学 习 率 相 比 ， 当 w, 的 学 习 步 长 大 于 wi 时 ， 算 法 的 收敛 速度 更 快 ， 精 度 会 更 高 。 
随机 梯度 下 降 无 法 对 不 同 模型 权重 设置 不 同 的 学 习 步 长 。 函 数 优化 策略 需要 根据 各 梯 
度 分 量 的 实际 分 布 情况 , 自 适应 地 调整 学 习 步 长 。 在 自 变量 区 间 内 梯度 较 小 且 保持 一 
致 的 情况 应 采用 较 大 的 学 习 步 长 在 自 变量 区 间 内 梯度 较 大 且 方向 不 定 的 情况 应 采用 


较 小 的 学 习 步 长 。 
/ 
t 3 
wd 








图 7-1 左 图 表示 w: 、wz 构 成 的 等 损失 函数 值 曲线 图 ， 右 图 表示 等 损失 曲线 与 对 应 的 损失 函数 值 


RMSProp 算法 是 一 种 自 适应 学 习 率 的 优化 算法 ， 通 过 统计 近似 梯度 均值 的 方式 
来 调整 学 习 率 。 从 TensorFlow 的 源 代码 文件 rmsprop.py 中 可 以 看 出 ， 当 权重 梯度 均 
值 较 大 时 等 比 缩小 学 习 率 ， 当 权重 梯度 均值 较 小 时 等 比 放 大 学 习 率 。 
RMSPropOptimizer 通过 佑 计 训 练 过 程 中 的 梯度 方差 信息 对 学 习 率 进 行 自 适应 调整 。 
在 实现 中 有 两 个 版 本 , 一 个 版 本 是 使 用 衰变 因子 直接 估算 梯度 均值 绝对 值 ， 当 梯度 均 
值 较 大 时 学 习 率 等 比 下 降 , 反之 上 升 。 另 一 个 版 本 是 维护 梯度 的 平均 值 ， 并 以 此 预 估 
梯度 方差 ， 然 后 再 对 学 习 率 进行 自 适应 调整 。 











算法 7-2: RMSPropOptimizer 使 用 梯度 均值 对 学 习 率 自 适应 调整 
mean-square: = decay X mean-square,-, + (1 — decay) x gd 
mom, = momentum X mom,- + learning_rate X ge/sqrt(meansauare, + epsilon) 





delta, = —mom, 
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算法 7-3: RMSPropOptimizer 使 用 梯度 方差 对 学 习 率 自 适 应 调整 


mean.grad, = decay X mean. grad,-, + (1 — decay) X ge 





mean-square; = decay X mean square,-, + (1 — decay) X gt 
mom, = momentum X mom(t-1) + 
learning rate X 9¢/sqrt(meaMsquare, 一 meangrad? + epsilon) 


deltat = —mom, 





算法 7-2 与 算法 7-3 中 g, 表 示 t 时 刻 的 梯度 ， mean_squaret 表 示 t 时 刻 梯度 均值 平 
方 ，decay 表 示 延 迟 因 子 ， 用 于 表示 过 往 数据 包 统计 的 梯度 对 当前 梯度 计算 所 起 到 的 
作用 强度 。momentum 表 示 梯 度 方向 惯性 ， 起 到 的 作用 是 即使 当前 梯度 为 0， 亦 可 使 
梯度 往 之 前 的 梯度 方向 继续 调整 。mean_squaret — mean grad? HF, 估算 梯度 的 方 
差 。 在 TensorFlow 的 实现 中 , RMSPropOptimizer 类 的 构造 函数 中 ， 通过 参数 centered 
控制 调用 算法 7-2 或 算法 7-3。 


7.1.3 Adam 优化 算法 


无 论 是 随机 梯度 下 降 还 是 RMSProp 优化 算法 ， 学 习 率 (leaming rate) 都 是 需要 
人 工 设 置 的 超 参数 。 尽 管 RMSPropOptimizer 在 内 部 实现 了 对 不 同 模型 权重 学 习 率 的 
自 适应 调整 , 其 初始 基数 值 仍然 是 需要 人 为 设置 的 ， 并 且 学 习 率 的 内 部 调整 策略 与 训 
练 迭 代 次 数 无 关 。 按 照 一 般 实 验 观察 的 结果 , 随 着 迭代 次 数 的 增加 ， 准确 率 越 来 越 高 ， 
应 该 缩小 更 新 步 长 , 否则 可 能 会 造成 在 极 小 值 附近 来 回 震荡 。 若 希 望 随 着 迭代 次 数 的 
增加 等 比 减少 学 习 率 基数 ， 可 以 根据 如 下 公式 进行 动态 调整 。 


iter num 


i ‘ max(0, — offset) 
learning rate, = learning rateo Xa (earning rate step 


Adam 算法 与 其 他 优化 策略 的 最 大 不 同 在 于 ，Adam 算法 使 用 迭代 次 数 作为 参数 
对 梯度 均值 和 梯度 均值 方差 进行 了 矫正 3， 其 算法 过 程 如 算法 7-4 所 示 。 





43 算法 的 完整 描述 可 参见 本 章 参考 资料 2]。 
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算法 7-4: AdamOptimizer 函数 优化 算法 。 史 表示 向 量 元 素 的 平方 INITIO RUSH 
a = 0001, f; = 09, pz = 0.999 3n e = 10 .算法 中 所 有 的 向 量 操作 都 是 基于 元 素 操作 的 。p{ 和 
Bi RR DR Po CAT, 

SORRY TRIE, 

令 甩 和 2 表示 两 个 延迟 因子 的 基数 

令 f(9) 表 示 目 标 函数 ， 需 求解 min(/(8)) 时 的 参数 9 

初始 化 : 

令 6o 为 均值 0 方差 较 小 的 随机 向 是 ， mo = 0, vo 70, t=0 

while Gt 没有 满足 收敛 条 件 时 

t=t+1 (更 新 迭代 次 数 ) 

Ge = Vof: (O1) (获得 目标 函数 在 参数 gc-: 时 的 梯度 ) 

m, = fi'm,- + (1 — Bi) ge ( 估算 梯度 均值 ) 
| ve = P2' ve~, + (1 — 2) gt ( 估算 梯度 平方 均值 ) 
M, = me/(1 — Bt) (考虑 迭代 次 数 对 梯度 均值 进行 矫正 ) 
i ?, = w/(1 — BE) (考虑 迭代 次 数 对 梯度 平方 均值 进行 矫正 ) 
J 9, = 6,7, 7 a Tu/GITt £) 
end while 
返回 9 


一 -一 
相 较 于 RMSProp 算法 ，Adam 算法 使 用 友 代 次 数 与 延迟 因子 对 梯度 均值 和 梯度 
平方 均值 进行 了 矫正 。 也 正 因为 如 此 ，Adam 算法 对 梯度 变化 的 预测 可 能 更 加 精准 。 
一 些 实验 表明 其 实验 结果 要 优 于 RMSProp。 但 这 并 不 是 绝对 的 ， 最 终 的 训练 效果 还 
是 要 受到 训练 数据 、 网 络 结构 、 损 失 函 数 以 及 函数 优化 策略 等 因素 的 共同 影响 。 


7.1.4. 目标 函数 优化 算法 小 结 


总 结 来 说 , GradientDescentOptimizer 实现 简单 , 梯度 更 新 方向 仅 由 样本 特征 线性 
加 权 获 得 ， 所 有 特征 权重 的 学 习 率 相同 。RMSPropOptimizer 根据 学 习 过 程 中 的 参数 
均值 或 方差 自 适应 调整 每 一 个 模型 参数 的 权重 学 习 率 。 在 RMSPropOptimizer 的 基础 
上 AdamOptimizer 使 用 迭代 次 数 对 梯度 均值 和 方差 进行 校正 。 RMSPropOptimizer 与 
AdamOptimizer 的 共同 点 是 自动 调整 学 习 率 。 当 梯度 均值 或 方差 较 小 时 ， 
RMSPropOptimizer 与 AdamOptimizer 会 自动 增加 学 习 率 ,无 论 是 哪 种 函数 优化 策略 ， 
随 着 训练 次 数 的 增加 ， 使 用 小 的 学 习 率 调整 模型 参数 是 十 分 有 必要 的 。 





| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
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7.2 类别 采样 (Candidate Sampling ) 损失 函数 


根据 模型 的 定义 , 损失 函数 被 分 为 两 种 : 一 种 是 置信 数值 的 概率 转换 函数 softmax， 
另 一 种 是 基于 概率 密度 函数 的 损失 函数 logistic”。 本 节 将 重点 介绍 这 两 种 类 别 采 样 
(Candidate Sampling ) 损失 函数 ， 并 以 单词 向 量化 (word2vec ) 为 例 对 基于 类 别 采 样 
的 损失 函数 的 优点 进行 了 说 明 。 另 外 ， 本 节 还 对 负 样 本 估计 类 别 采样 (Negative 
Sampling ) 损失 函数 、 类 别 采样 logistic ( Logistic Sampling ) 损失 函数 进行 概括 说 明 。 


首先 ， 问 题 可 以 抽象 为 : 假设 一 个 预测 分 类 问题 ， 每 个 训练 样本 由 (xi, TD) 组 成 。 
其 中 x, 表 示 样本 i 的 上 下 文 相关 特征 , Ti 是 一 个 比 整 个 样本 类 别 集合 T 小 得 多 的 类 别 样 
本 子 集 。 


这 时 ,我们 希望 学 习 一 个 稳定 的 预测 函数 f(x， 并 由 它 来 估计 样本 上 下 文 x 和 
预测 目标 的 关系 。 例 如 ， 以 概率 的 形式 表示 样本 上 下 文 和 预测 结果 。 


当 训练 使 用 所 有 的 数据 样本 类 别 更 新 模型 时 ， 我 们 在 计算 softmax 或 者 logistic 竺 
操作 时 需要 加 载 并 计算 每 个 训练 样 例 f(x,y) 对 应 每 个 类 y EL 的 预测 概率 。 当 类 别 数 
IL| 较 大 时 ， 这 一 操作 的 内 存 和 计算 开销 都 会 非常 大 。 


类 别 采样 技术 是 针对 这 一 问题 的 常用 技术 方法 。 在 构建 训练 任务 时 ， 对 每 个 训练 
FEDI Ti), 在 一 个 类 别 子 集 C1 构成 的 数据 包 ( batch ) 中 对 函数 f(x 进行 评估 优化 。 
通常 ， 类 别 子 集 Ci 由 目标 类 别 集合 六 和 从 整体 类 别 集合 中 随机 选择 的 类 别 子 集 St C L 
构成 ， 如 下 所 示 。 


Cj 2 TjU Si 


负 样 本 类 别 集合 5 的 选择 方式 可 以 与 上 下 文 特征 x 或 目标 类 别 Ti 相关 。 神经 网 络 
模型 在 训练 过 程 中 通过 评估 预测 函数 f(x, 在 训练 数据 包 中 产生 的 损失 函数 值 来 计 
算 反 向 传播 梯度 并 对 模型 进行 更 新 。 





44 Logistic 可 以 理解 为 机 器 学 习 中 的 模型 等 价 于 各 目 标 样本 概率 密度 的 分 布 函数 。 训 练 过 程 只 
是 求解 模型 的 参数 。 在 实际 问题 中 选择 与 问题 样本 分 布 一 致 的 模型 结构 能 够 很 好 地 简化 训 
练 过 程 。 模 型 结构 过 于 复杂 时 会 产生 大 量 的 元 余 参 数 且 训练 耗 时 长 。 若 模型 结构 过 于 简单 ， 
则 样本 可 能 无 法 获得 良好 的 收敛 。 
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目前 TensorFlow 中 含有 的 类 别 采 样 损失 函数 主要 包括 softmax 和 logistic 两 大 类 型 ， 
如 表 7-1 所 示 ， 其 中 相关 概念 和 函数 定义 如 下 : 


。 “softmax 函 数 常用 于 单 分 类 问题 。 这 种 情况 下 样本 (xi, TD) 只 可 能 含有 一 个 类 别 标 
签 。logistic 是 指 模型 ， 是 以 概率 密度 函数 的 形式 表现 的 。 与 softmax 函 数 不 同 ， 
logistic 形 式 的 损失 函数 可 用 于 度量 多 类 问题 的 损失 函数 。 这 种 情况 下 样本 
(xp Ti) 可 以 有 多 个 类 别 标签 。 

。 ”QCy|x) 表 示 类 别 集合 Ci 中 具体 采样 类 别 的 概率 密度 函数 。 其 中 ,x 表示 采样 函数 
的 上 下 文 相关 特征 向 量 ，y 表 示 采 样 数据 包 的 类 别 集合 Ci 中 单个 或 多 个 类 别 。 

。 K(x) 表示 仅 与 上 下 文 相关 特征 向 量 x 相 关 的 任何 一 个 可 能 函数 。 它 与 类 标签 y 是 
无 关 的 ， 即 K(x) 与 任 一 分 类 权重 和 偏 移 都 是 无 关 的 。 它 用 来 表示 分 类 结果 值 的 
基数 。 分 类 结果 的 概率 极 大 值 的 最 终 输 出 会 用 到 归 一 化 操作 ， 而 K(x) 不 会 改变 
最 后 的 判断 结果 。 仅 当 K(z) 远 大 于 吕 (P(ylz)) 时 ， 各 类 的 分 类 判定 概率 会 趋 于 
均衡 。 

。 “logistic 损失 函 数 如 下 所 示 。G (xu 0 表示 样本 特征 xi 对 应 类 标签 向 量 y 的 概率 置 
信 度 相关 向 量 。 向 量 y 由 0、1 构成 , 1 表示 属于 该 类 别 , 0 表示 不 属于 该 类 别 。 
GA, lity PICK 1 对 应 的 G(xi,yi) 值 越 大 ,损失 函数 越 小 。 而 元 素 0 对 应 的 
G(xi,7) 值 越 小 ， 损 失 函 数 越 小 。 对 于 logistic 损 失 函 数 ， 相 同 数据 集 使 用 全 类 
别 集合 和 子 类 别 采样 集合 训练 时 ， 向 量 6G (xi,y) 的 长 度 是 不 同 的 。 





loss = > Oix C-In(66,90)) + à = y) x -In(1— GD) 


。 softmax 的 损失 函数 如 下 所 示 。 其 中 心 表示 样本 i 的 类 别 标签 序号 。 置 信 度 相关 
向 量 6(x,y) 在 目标 类 别 上 的 分 量 值 占 比 越 大 ， 进 行 softmax 指 数 函数 归 一 化 时 的 
比例 值 越 小, 则 最 终 的 损失 值 越 小 。 对 于 softmax 损 失 函 数 ， 相 同 数据 集 使 用 全 
类 别 集合 和 子 类 别 采样 集合 训练 时 ， 向 量 6G(x,y) 的 长 度 是 不 同 的 。 


loss= DG + ln X — exp(6 5) 
i yEPOS;UNEG; 
co Xyepos;uvEo; ExXp(G (xi y))) 
exp(G (xi,y) [ti]) 
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。 ”噪声 对 比 估计 中 的 正 样本 集合 7 可 表示 多 个 归属 类 标签 。 在 这 种 情况 下 , POl) 
表示 y 为 目标 类 别 集合 也 各 元 素 的 所 属 概率 。 与 此 类 似 , 噪声 对 比 估计 、 负 样本 
估计 和 logistic 估 计 中 的 负 类 别 集合 8 也 表示 为 多 个 归属 类 标签 集合 。 此 时 ， 
QO"|z) 表 示 y 为 负 类 别 集合 % 各 类 别 的 所 属 概率 。 

。 ”通过 损失 函数 计算 反 向 传播 的 梯度 时 ,全 类 别 集 合 训 练 对 所 有 类 别 L 的 对 应 分 类 
权重 都 进行 更 新 。 而 类 别 子 集 采样 包 则 只 对 指定 的 类 别 子 集权 重 进行 更 新 。 两 
种 方式 都 使 用 了 数据 包 的 形式 进行 反 向 传播 的 梯度 计算 , 因 类 别 采样 形式 不 同 ， 
损失 函数 的 计算 是 不 同 的 。 全 类 别 集合 训练 是 类 别 子 集 采样 训练 的 特例 。 


3& 7-1 TensorFlow 类 别 采样 损失 函数 


正 / 负 样本 的 类 别 集 | 损失 函数 的 输 | 目标 函数 向 量 
合 POSi、NEGi 入 向 量 C(x 7 | f(y») 













Tensorflow 函数 































softmax 全 类 别 集 E: Tt 单 类 标签 In(PO/O) 
合 损失 函数 ee fi: (LT) idi KG) 
softmax 类 别 采 样 | sampled softmax ] | E: Ti 单 类 标签 fGoy) 

损失 函数 oss fa: (iT) = InCQ(ylX) 






噪声 对 比 估计 类 别 


Noise 


















TE: Ti 多 类 标签 
fA: Sı 


fay) 
— In(Q (ylx)) 







nce loss 
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Contrastive 





Estimation 
(NCE) 

负 样 本 估计 类 别 采 
样 损失 函数 


Negative 










E: 了 多 类 标签 
fa: St 


fa: (Si-Ti) —log(Q (ylx)) 
Ee 
7.2.1 ”softmax 33S EEdR Ac BA 
分 类 判定 问题 是 指 每 一 个 训练 样本 (xi (6) FU — 1 06 — B9 2S BAR, S 









nce loss 







Sampling 

类 别 采样 logistic 损 
KBR 

3804-1 logistic 151 
KR 






POylx) 
1- P(ylx) 
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P(ylx) € ( 一 e, e) 表示 上 下 文 相关 特征 x 对 应 于 目标 类 别 y 的 可 信 度 值 。softmax 
函数 是 指 从 类 别 可 信 度 值 输出 结果 中 挑选 出 可 信 度 最 大 的 类 别 作 为 输出 类 别 , 并 将 可 
信 度 归 一 化 值 近似 地 认定 为 输出 类 别 的 概率 。 


分 类 问题 的 训练 目标 函数 F(x, 7 是 指 : 在 给 定 上 下 文 相关 特征 x 时 ， 通 过 反 向 梯 
度 更 新 分 类 权重 , 令 目 标 函 数 F(x,7) 取 得 最 小 值 , 并 尽 可 能 地 使 对 应 类 别 的 可 信 度 对 
数值 In(PCylz)) 取 得 一 个 较 大 值 。 通 过 可 信 度 对 数值 和 特征 向 量 相关 函数 K(x) 来 间接 
反映 目标 类 别 的 所 属 概率 。 


这 里 使 用 对 数 是 为 了 使 概率 计算 中 与 类 别 参数 无 关 项 以 相 加 的 形式 呈现 。 如 下 公 
式 所 示 。 


F(x,y) e In(P(y|x)) + K(x) 


若 对 分 组 数据 集 的 所 有 类 别 进行 softmax 方 式 的 训练 ， 则 对 于 每 一 个 训练 样本 ， 
需要 计算 对 整体 类 别 集合 中 每 一 种 类 别 y 的 目标 水 数值 f(x,y), 并 以 此 来 计算 反 向 传 
播 梯度 。 当 整体 类 别 集合 非常 大 时 ， 这 种 计算 策略 的 计算 量 会 非常 大 。 


使 用 分 组 数据 类 别 子 集 采 样 包 进 行 softmax 方 式 的 训练 时 ， 对 于 每 一 组 数据 通过 
KERRO), 我们 从 全 类 别 集合 中 挑选 出 一 个 类 别 子 集 5i。 每 一 个 标签 类 别 属于 
集合 Si 的 概率 都 是 独立 无 关 的 。 对 于 采样 集合 Ci 构成 的 负 样本 标签 集合 的 概率 如 下 公 
式 所 示 。 


PG, - sl) =| Jeo [| a- eot» 
yes ye(L-S) 
负 类 别 集合 选 定 后， 添加 目标 类 别 样本 {t] ， 重 定义 训练 数据 分 组 的 类 别 集合 
Ci = Si U {t。 此 时 ,目标 函数 的 训练 更 新 只 对 类 别 子 集 Ci 所 对 应 的 分 类 参数 起 作用 。 
给 定 一 个 数据 分 组 的 采样 类 别 集合 C 和 任 一 样本 特征 向 量 妇 ， 对 于 每 一 个 类 别 
y € C1， 希望 能 够 计算 目标 类 别 的 后 验 概率 P(t = ylx, C2)。 


应 用 贝 叶 斯 后 验 概率 公式 可 以 展开 如 下 公式 : 
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P(t;-y,Clx)  P(t; ylx)P(ilt; = y.x 
Pee = yi cd = e aoe : 
» PCy|x)P(Cilti = y, x) 
P(Cilxi) 
需要 注意 的 是 ， 采 样 类 别 集合 Si 不 包含 目标 类 别 集合 ， Si 包含 采样 类 别 集合 Ci 除 
目标 类 别 避 的 所 有 元 素 。5i 不 会 包含 不 属于 Ci 的 元 素 。 使 用 这 一 条 件 可 对 
P(Cilti = 多 xi 进行 展开 如 下 公式 : 





P(y\x)P (Citi = y, x) 
P(Cilxi) 
P(yl|x;) IL. 


P(t; = ylx, CD = 
Qo Ion, 4 ,G-e( fk) 
P(Cilxi) 
POD, oo WT, eg 2’ kD 
5 QGIx)P(Cilx) 


POD ers c 
= 


ec;-(y} 


对 以 上 公式 两 边 取 对 数 于 是 有 : 
In(P(t; = ylxi C2) = In(PCylx)) 一 In(Q(y1x:)) +K’ (% CD 


使 用 分 组 数据 子 类 别 集合 训练 时 , 直接 使 用 重 定义 类 别 子 集 ， 反 向 传播 会 使 目标 
函数 f(xy) 尽 可 能 地 “ 允 近 类 别 子 集 中 期 望 值 ” In(P(y|xi))。 由 以 上 公式 可 知 ， 考 虑 
类 别 子 集 C, 的 采样 概率 即 可 完成 类 别 子 集 与 全 集训 练 期 望 的 转换 。 


灵活 性 是 TensorFlow 的 最 大 魅力 之 一 ， 使 用 TensorFlow 能 够 很 方便 地 模拟 一 个 
类 别 数量 过 万 的 无 监督 问题 。 这 里 将 使 用 一 个 较 小 的 文本 数据 集合 来 实现 单词 向 量化 
的 训练 ， 并 以 此 为 例 来 说 明 sampled_softmax_loss 函 数 的 使 用 。 这 里 使 用 的 单词 向 量 
化 为 优 达 学 城 45 所 提供 的 例子 ， 代 码 为 TensorFlow0.12 源码 中 的 tensorflow/examples/ 





45 优 达 学 城 ( Udacity ) 是 著名 的 在 线 IT 培训 机 构 ， 它 与 Google 合作 推出 了 基于 TensorFlow 
的 深度 学 习 培 训 教程 ， 以 英文 为 主 。 
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udacity 目录 中 的 5. word2vec.ipynb 文件 。 该 程序 的 功能 是 对 本 文 文件 中 出 现 的 英文 
单词 进行 向 量化 表示 。 要求 意思 相似 的 单词 向 量化 表示 越 相似 。 因 文本 文件 没有 类 别 
标签 ,为 简化 问题 , 假设 单词 前 后 上 下 文 越 相似 则 单词 含义 越 相 似 。 基 于 这 一 假设 即 
可 从 文本 文件 中 抽象 出 一 个 类 别 过 万 的 训练 集 。 为 便于 理解 , 这 一 节 将 对 该 例子 进行 
展开 论述 。 


首先 导入 各 Python 的 依赖 模块 。 其 中 collections 模块 中 含有 集合 运算 。Math 模 
块 中 含有 各 种 数学 运算 。Numpy 模块 可 以 在 Python 中 很 方便 地 使 用 矩阵 。os 为 操作 
系统 相关 模块 。 Random 为 随机 数 模块 。Tensorflow 为 训练 模块 。 Zipfile 为 解压 模块 。 
Matplotlib 为 画图 模块 。 Six.moves 中 的 range 为 常用 幅度 区 间 模 块 。 
Six.moves.urllib.request 中 的 urlretrueve 为 url 网 络 文件 下 载 模块 。Sklearn.manifold 中 
的 TSNE 为 一 个 数据 降 维 模块 。TSNE 内 部 含有 多 种 数据 降 维 算法 。 本 文 使 用 PCA 
算法 对 向 量化 后 的 文本 进行 二 维 化 处 理 以 便于 显示 。 


# These are all the modules we'll be using later. Make sure you can 
import them 

# before proceeding further. 

$matplotlib inline 

from _ future import print function 

import collections 

import math 

import numpy as np 

import os 

import random 

import tensorflow as tf 

import zipfile 

from matplotlib import pylab 

from six.moves import range 

from six.moves.urllib.request import urlretrieve 

from sklearn.manifold import TSNE 


函数 maybe download 从 网 址 http://mattmahoney.net/dc/text8.zip 处 下 载 文本 文件 
并 验证 文件 的 大 小 以 确定 下 载 成 功 。 随后 使 用 zipfile 模块 将 下 载 的 压缩 文件 解压 。 最 
后 使 用 tf.compat.as_str 函数 将 文件 以 文本 形式 读 入 ， 并 使 用 split 函数 将 字符 串 分 割 
为 单词 。 


url = 'http://mattmahoney.net/dc/' 
def maybe download(filename, expected bytes): 
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"""Download a file if not present, and make sure it's the right 
Size.""" 


if not os.path.exists (filename): 
filename, _ = urlretrieve(url + filename, filename) 
statinfo = os.stat (filename) 
if statinfo.st_size == expected_bytes: 
print ('Found and verified $s' % filename) 
else: 
print (statinfo.st_size) 
raise Exception ( 
'Failed to verify ' + filename * '. Can you get to it with a 
browser?') 


return filename 
filename = maybe download('text8.zip', 31344016) 


def read data (filename): 
"""Extract the first file enclosed in a zip file as a list of 
words""" 
with zipfile.ZipFile(filename) as f: 
data = tf.compat.as str(f.read(f.namelist () [0])) split O 
return data 


words - read data (filename) 

print('Data size $d' $ len(words)) 

Data size 17005207 

从 上 述 运行 结果 可 以 看 出 text8.zip 压缩 后 的 大 小 为 30MB 左右 。 解 压 后 的 文本 文 
件 长 度 为 17005207 个 单词 。 为 了 便于 演示 减少 计算 ， 这 里 限制 单词 的 种 类 上 线 为 
50000 种 .通过 统计 词 频 ,可 以 挑选 出 词 频 出 现 最 高 的 49999 种 类 别 进行 单词 向 量化 ， 
将 其 他 单词 统一 归 类 为 未 知 类 别 'UNK 。words 对 象 中 保存 的 原始 文本 序列 构成 单词 
列表 。 值 得 注意 的 是 ， 默认 情况 sampled_softmax joss 函 数 对 类 别 子 集 采 用 对 数 均匀 
采样 。 类 别 标签 应 与 采样 概率 值 保持 一 致 ， 即 任 一 对 类 别 序号 a < b， 训 练 样本 集合 
中 类 别 为 的 数量 应 大 于 b。 类 别 集合 的 对 数 均 匀 采 样 与 特征 向 量 无 关 ， 它 只 是 一 种 
概括 非 均衡 数据 的 类 别 集合 采样 方式 。 非 均 衡 数 据 (imbalance data ) 是 指名 类 别 的 样 
本 数量 差别 较 大 的 数据 集 ， 例如 正 样本 数量 是 负 样本 数量 的 20 倍 。 因为 损失 函数 统 
计 的 是 整个 样本 集 信息 ， 非 均衡 导致 的 最 大 的 问题 是 样本 多 的 类 别 会 把 样本 少 的 基 别 
“ 吃 掉 "。 在 20 倍数 量 的 差距 下 2 分 类 问题 中 ， 负 样本 的 预测 即使 全 错 ， 整体 准确 率 
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依然 可 以 高 达 95% 以 上 。 


当 运 行 完 毕 函 数 build dataset 后 ， 可 以 获得 data, count, dictionary 、 
reverse dictionary 四 个 对 象 。 其 中 data 是 一 个 一 元 数组 列表 ， 里 面 对 应 保存 的 是 原始 
文本 序列 中 的 单词 在 字典 dictionary 中 的 序号 。 函数 collections.Counter.most common 
能 对 原始 文本 列表 count 进行 词 频 统计 。 返 回 的 词 频 中 最 高 的 49999 个 单词 名 称 集合 
和 其 出 现 的 次 数 构成 二 元 组 列表 。 字 典 dictionary 保存 的 是 单词 名 称 和 单词 频次 的 排 
序 序号 。reverse_dictionary 保存 的 是 单词 词 频 的 排序 序号 和 对 应 的 单词 名 称 。 根 据 样 
本 数量 进行 排序 并 赋予 类 别 标签 是 按照 默认 参数 调用 sampled_softmax_loss 函 数 的 必 
要 步骤 。 关 于 这 一 要 求 将 在 后 文 说 明 。 


vocabulary size = 50000 


def build dataset (words): 
count = [['UNK', -1]] 
count.extend(collections.Counter(words).most common (vocabulary. 
size - 1)) 
dictionary = dict() 
for word, _ in count: 
dictionary[word] = len(dictionary) 
data = list() 
unk count - 0 
for word in words: 
if word in dictionary: 
index = dictionary[word] 
else: 
index = 0 # dictionary['UNK'] 
unk_count = unk_count + 1 
data. append (index) 
count [0] [1] = unk_count 
reverse dictionary = dict (zip(dictionary.values(), dictionary. 
keys () ) ) 
return data, count, dictionary, reverse dictionary 


data, count, dictionary, reverse dictionary - build dataset (words) 
print('Most common words (+UNK)', count[:5]) 

print('Sample data', data[:10]) 

del words # Hint to reduce memory. 


Most common words (+UNK) [['UNK', 418391], ('the', 1061396), ('of', 
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593677), ('and', 416629), ('one', 411764)] 
Sample data [5243, 3083, 12, 6, 195, 2, 3136, 46, 59, 156] 


通过 输出 函数 可 以 看 出 文本 集合 的 单词 类 别 共计 49999 + 41391 = 91390 个 。 词 
频 最 高 的 单词 是 "the"， 共 计 1061396 次 ,其次 是 "of" 共 计 593677 次 。"and" 和 "one 分 
别 出 现 416629 和 411764 次 为 词 频 出 现 最 高 的 3、4 单词 。 原始 文本 的 前 10 个 单词 根 
据 词 频 排 序 后 , 在 字典 中 的 序号 分 别 是 5243、3083、12、6、195、2、3136、46、 59、 
156。 从 输出 结果 可 以 看 出 数据 处 理 的 正确 性 。 下 面 将 说 明 数据 分 组 函数 及 其 对 应 的 
单 次 子 类 别 采 样 训练 。 


data index = 0 


def generate batch(batch size, num Skips, skip window): 
global data index 
assert batch size $ num skips == 
assert num skips «- 2 * skip window 
batch - np.ndarray(shape- (batch size), dtype-np.int32) 
labels - np.ndarray (shape- (batch size, 1), dtype-np.int32) 
span = 2 * skip window + 1 # [ skip window target skip window ] 
buffer - collections.deque (maxlen-span) 
for in range(span): 
buffer.append(data[data index]) 
data index = (data index + 1) $ len(data) 
for i in range(batch size // num skips): 
target = skip window # target label at the center of the buffer 
targets to avoid - [ skip window ] 
for j in range (num skips): 
while target in targets to avoid: 
target = random.randint(0, span - 1) 
targets to avoid.append (target) 
batch[i * num skips + j] = buffer[skip window] 
labels[i * num skips + j, 0] = buffer[target] 
buffer.append(data[data index]) 
data index = (data index * 1) $ len (data) 
return batch, labels 


print('data:', [reverse dictionary([dil for di in data[:8]]) 
for num skips, skip window in [(2, 1), (4, 2)): 


data index = 0 
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batch, labels = generate batch(batch size-8, num skips-num. 
skips, skip window-skip window) 
print('\nwith num skips = $d and skip window = $d:' $ (num skips, 
skip window)) 
print(' batch:', [reverse dictionary[bi] for bi in batch]) 
i print (' labels:', [reverse_dictionary[li] for li in 
| labels.reshape(8)]) 





data: ['anarchism', 'originated', 'as', 'a', 'term', 'of', 'abuse', 
'first') 


with num skips = 2 and skip window = 1: 
batch: ['originated', 'originated', 'as', 'as', 'a', 'a', 'term', 
'term'] 
labels: ['as', 'anarchism', 'a', 'originated', 'term', 'as', 'a', 
'of'] 


with num skips - 4 and skip window - 2: 


batch: ['as', 'as', 'as', 'as', 'a', 'a', 'a', 'a'] 
labels: ['anarchism', 'originated', 'term', 'a', 'as', 'of', 
'originated', 'term'] 


generate batch 函数 负责 从 原始 文本 序列 中 抽取 训练 数据 包 。 它 含有 三 个 参数 : 
batch_size、num_skips、skip_windows。 其 中 batch size 表示 batch 数据 包 的 大 小 。 
num skips 表示 从 原始 文本 序列 中 的 扫描 窗口 内 采样 的 样本 个 数 。skip_windows 表示 
扫描 窗口 的 半径 含有 多 少 个 单词 。data_index 表示 文本 序列 当前 单词 索引 。 buffer 表 
示 一 个 先进 先 出 的 队列 。 在 函数 开始 时 data index 为 0, buffer 中 被 填 入 了 
skip_windowsx2+I1 个 单词 形成 扫描 窗口 。 在 每 一 个 生成 的 扫描 窗口 中 采样 
num_skips 次 。 每 次 采样 使 用 扫描 窗口 的 中 心 位 置 作为 特征 单词 。 窗 口内 随机 选择 不 
重复 的 样本 位 置 作为 类 别 标签 单词 。 扫 描 窗口 采样 完毕 后 ,更 新 data index 值 ， 向 队 
列 buffer 添加 新 的 单词 ， 刷 新 扫描 窗口 位 置 ， 继 续 采 样 。 值 得 注意 的 是 batch_size 必 
须 能 够 被 num_skips 整除 ,以 确保 在 整数 次 窗口 采样 中 能 够 获取 batch 训练 包 的 样本 。 
num skips 必须 小 于 等 于 skip_windows x 2， 确 保 每 一 个 样本 最 多 仅 被 采样 一 次 。 最 
后 令 batch_size 为 8， 打印 了 原始 文本 序列 的 前 8 个 单词 ， 并 分 别 在 num_skips=2、 
skip windows-l 和 num_skips=4、skip_windows=2 的 情况 下 显示 生成 的 数据 包 。 


由 此 可 知 ， 此 时 batch 数据 包 对 应 的 生成 函数 是 与 上 下 文 相 关 的 。 每 个 单词 词 频 


hà 268 
ww ai bbt. com [1 [1 HH UO D 7 D 


7 损失 函数 与 优化 算法 


差异 较 大 , 整个 样本 集合 是 一 个 类 别 数量 庞大 的 非 均衡 数据 集 。 直接 使 用 类 别 全 集 对 
采样 包 进行 训练 是 十 分 耗 时 的 。 每 次 梯度 更 新 都 至 少 需要 对 50000 个 类 别 的 分 类 权重 
向 量 进行 更 新 。 当 batch 数据 包 样 本 远 小 于 类 别 数量 时 ， 此 时 计 算 的 分 类 梯度 误差 较 
大 。 若 使 用 sampled_softmax loss 函 数 , 则 分 类 权重 参数 的 更 新 只 在 采样 类 别 子 集 Ci 中 
发 生 , 分 类 问题 的 类 别 数量 被 限制 在 与 样本 数据 包 相差 不 大 的 范围 内 。 在 本 例 的 训练 
过 程 中 batch 数据 包 大 小 为 128 ,采样 的 负 样本 类 别 数量 为 64。 即 单 次 数据 包 的 训练 ， 
因 重 定义 了 类 别 集合 ， 只 计算 更 新 192 个 类 别 的 分 类 权重 参数 。 考虑 采样 函数 中 的 
-= In(QGrlx)). 则 可 将 类 别 子 集 期 望 输出 转换 为 类 别 全 集 的 期 望 输出 。 


如 公式 Ci = TiU 5; 所 示 ， 这 里 的 目标 类 别 集合 Ti 由 batch 样本 包 中 的 目标 类 别 构 
成 ， 而 负 类 别 集合 $, 是 通过 对 数 均匀 分 布 采样 函数 选取 的 。 对 数 均匀 分 布 将 在 下 一 节 
中 详细 介绍 。TensorFlow 中 提供 了 多 种 类 别 子 集 的 采样 函数 ， 可 作为 参数 传 入 函数 


sampled_softmax_loss 中 。 


需要 强调 的 是 ， sampled. softmax loss 与 softmax 函 数 的 不 同 是 ， softmax 适 用 于 
类 别 数量 较 少 的 单 分 类 问题 的 损失 函数 计算 ， 当 样本 的 类 别 数量 较 多 时 ， softmax 损 
失 函 数 更 新 模型 会 非常 缓慢 。 sampled_softmax loss 通 过 计算 类 别 子 集 损失 函数 ， 对 
类 别 数量 较 大 的 分 类 问题 进行 了 加 速 。 


batch_size = 128 

# 单词 向 量化 的 维度 。 

embedding size = 128 

# 单词 序列 扫描 窗口 半径 。 

skip window = 1 

# 每 个 扫描 窗口 的 采样 次 数 。 

num skips = 2 

on 的 前 valid, window 个 单词 中 随机 选择 valid size 个 ， 作 为 验证 集 才 
看 向 量化 后 最 邻近 向 量 的 单词 名 称 。 

+ 验证 集 的 大 小 。 

valid size = 5 

# 固 定 验 证 集 的 位 置 。 

valid window = 103 

valid examples = np.array (range (valid window, valid window 十 
valid size)) 

4 tensorflow.nn.sampled softmax loss 函数 中 负 样 本 类 别 集合 的 大 小 

num_sampled = 64 
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定义 了 相关 网 络 结构 参数 后 , 就 可 以 使 用 它们 生成 具体 的 网 络 。 为 简化 问题 , 这 
里 仅 使 用 一 层 线 性 网 络 进行 模型 训练 。 因 为 TensorFlow 使 用 张 量 进 行 损失 函数 的 权 
重 更 新 ， 这 种 更 新 策略 可 以 发 生 在 输入 层 。 只 要 输入 层 的 定义 为 tfvariable， 就 能 够 
对 其 进行 更 新 。 在 源码 中 , 使 用 的 是 AdagradOptimizer 优化 器 4。 它 与 AdamOptimizer 
类 似 ， 是 一 种 根据 梯度 信息 自动 更 新 学 习 率 的 函数 优化 策略 。AdagradOptimizer 的 梯 
度 更 新 策略 较 复杂 ， 且 需要 保存 过 往 历史 梯度 信息 ， 部 分 实践 表明 AdamOptimizer 
| 算法 优 于 AdagradOptimizer 算法 。 


在 本 例 中 , 因 不 同 的 单词 类 别 可 能 会 含有 相同 的 上 下 文 ,上 下 文 的 相关 程度 越 高 ， 
i 共同 出 现 的 频次 越 高 的 向 量 应 越 相似 。 初始 时 , 定义 一 个 大 小 为 50000 x 128 的 张 量 ， 
服从 区 间 [-1 刀 的 均匀 分 布 ， 令 每 一 行 表示 一 个 向 量化 后 的 单词 。 使 用 函数 
tf.nn.embedding lookup 能 够 在 TensorFlow 的 张 量 中 获取 指定 行 号 的 子 集 形成 训练 采 
样 包 。 最 后 定义 验证 方式 , 在 验证 时 使 用 归 一 化 向 量 的 内 积 表示 两 单词 向 量 的 相似 程 
度 。 


| 全 类 别 集 的 softmax 损 失 函 数 可 直接 使 用 如 下 语句 完成 损失 函数 的 计算 。 

| tf.nn.softmax(tf.matmul(inputs, tf.transpose(weights)) + biases)。 然 而 ， 当 类 别 数 量 非 常 
大 ， 例 如 50000 种 时 ， 显 然 按照 tfnnsoftmax 的 训练 是 非常 耗 时 的 。 
sampled_softmax_loss 可 加 速 完成 训练 。 基 于 前 文 介 绍 的 相关 概念 ，TensorFlow 中 的 
函数 sampled_softmax_loss 会 根据 batch 数据 包 的 类 别 ， 从 类 别 集合 中 额外 随机 选取 
一 定数 量 的 类 别 作为 负 样本 类 别 子 集 。 然后, 这 些 负 样本 类 别 子 集 再 和 采样 包 样本 类 
别 集合 组 合并 训练 计算 损失 函数 值 。 默 认 时 sampled_softmax_loss 函 数 使 用 对 数 均匀 
分 布 函数 对 类 别 进 行 采样 , 这 是 一 种 针对 非 均衡 数据 的 类 别 采 样 方法 。 此 时 ，, 在 调用 
sampled_softmax_loss 函 数 前 ， 需 要 对 训练 集中 的 样本 数量 对 类 别 标签 进行 排序 ， 将 
样本 量 大 的 类 型 赋予 较 小 的 类 别 标签 。 


graph = tf.Graph() 





with graph.as default(), tf.device('/cpu:0'): 


# 输 入 数据 


46 AdagradOptimizer 内 部 实现 可 参阅 本 本 章 参考 资料 [5] 。 参 考 资料 [2] 中 的 实践 表明 
AdamOptimizer 优化 策略 性 能 优 于 AdagradOptimizer. 
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train dataset - tf.placeholder (tf.int32, shape-[batch size]) 
train labels = tf.placeholder (tf.int32, shape-[batch size, 1]) 
valid dataset - tf.constant(valid examples, dtype-tf.int32) 


# 需要 训练 更 新 的 变量 
embeddings = tf.Variable( 
tf.random uniform([vocabulary size, embedding size], -1.0, 1.0)) 
softmax weights = tf.Variable( 
tf.truncated normal([vocabulary size, embedding size], 
stddev-1.0 / math.sqrt (embedding size))) 
softmax_biases = tf.Variable(tf.zeros([vocabulary sizel)) 


# 模 型 定义 
+ 使 用 嵌入 式 tensor 子 集 
embed = tf.nn.embedding lookup (embeddings, train dataset) 
+ 计算 softmax 损失 函数 ， 每 次 计算 在 采样 包 内 选取 一 个 类 别 子 集 作为 负 样本 类 别 。 
loss = tf.reduce mean( 
tf.nn.sampled softmax loss(softmax weights, softmax biases, 
embed, train labels, num sampled, 


vocabulary size)) 


# 函 数 优化 器 

# 优 化 器 将 会 根据 损失 函数 更 新 1 层 分 类 器 的 网 络 权重 和 单词 的 嵌入 式 tensor 本 身 。 
这 是 因为 tensor embeddings 是 通过 函数 C£. Variable 定义 的 。 优 化 器 将 根据 损失 函数 
梯度 ， 利 用 反 向 传播 机 制 更 新 整个 网 络 中 所 有 C£ Variable 定义 的 变量 。 


optimizer = tf.train.AdamOptimizer () .minimize (loss) 


# 使 用 余弦 距离 计算 采样 包 验证 集 向 量 的 差异 


norm - tf.sqrt(tf.reduce sum(tf.square (embeddings), 1, 
keep dims-True)) 

normalized embeddings - embeddings / norm 

valid embeddings = tf.nn.embedding lookup( 

normalized embeddings, valid dataset) 

similarity - tf.matmul(valid embeddings, tf. transpose (normalized | 

embeddings)) 
在 训练 时 将 计算 图 代入 sessione 进行 必要 的 张 量 初始 化 后 ， 对 原始 单词 序列 进 

行 100001 次 循环 的 训练 迁 代 ,平均 2000 次 输出 计算 的 损失 均值 。 平 均 每 选 代 训练 
10000 次 , 输出 1 次 验证 集 的 验证 结果 。 验证 时 只 在 限定 的 验证 集合 内 部 挑选 出 与 验 
证 目标 最 接近 的 8 个 相似 单词 。 


num steps = 100001 
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with tf.Session(graph-graph) as session: 
tf.global variables initializer().run() 
print ('Initialized') 
average loss = 0 
for step in range(num_steps) : 
batch data, batch labels = generate batch( 
batch size, num skips, skip window) 
feed dict = (train dataset : batch data, train labels 
batch labels) 
_，1 = session.run([optimizer, loss], feed dict-feed dict) 
average loss += 1 
if step $ 2000 -- 
if step > 0: 
average loss - average loss / 2000 
| # 每 2000 次 采样 包 训练 迭代 输出 一 次 损失 函数 。 
| print('Average loss at step $d: $f' $ (step, average loss)) 
average loss - 0 
# 验证 过 程 是 耗 时 的 每 迭代 500 次 进行 一 次 验证 约 延迟 20$ 左 右 
if step $ 10000 == 
sim = similarity.eval() 
for i in range(valid size): 
valid word = reverse dictionary[valid examples[il] 
top k = 8 # number of nearest neighbors 
nearest - (-sim[i, :]).argsort()[1:top k*1] 
log - 'Nearest to $s:' $ valid word 
for k in range(top k): 
close word = reverse dictionary [nearest [k]] 
log - '$s $s,' $ (log, close word) 
print (log) 
final embeddings = normalized embeddings.eval() 


运行 上 述 程序 后 ， 模 型 的 初始 损失 值 为 8.4244, Bit 100001 次 迭代 训练 后 降 为 

} 3.4327。 初 始 状态 下 , 单词 english 和 under 的 特征 向 量 相似 , 单词 其 语义 与 单词 本 身 

没有 关系 。 当 完成 训练 后 , english 和 under 对 应 的 特征 向 量 在 特征 空间 中 能 够 较 好 地 

找到 语义 相似 词 。 例 如 与 english 相似 的 单词 包括 french，german，irish 等 ， 与 under 
相似 的 单词 包括 within, following, halts 等 。 





Initialized 

Average loss at step 0 : 8.42440223694 

Nearest to english: rubicon, krueger, uncontested, meow, cared, who, 
heapsort, assistance, 
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Nearest to then: simultaneity, epidemic, mppc, neutron, named, 
adventurers, greece, synchronization, 

Nearest to any: moi, designation, realignment, brixton, musings, 
ethic, perineum, differed, 

Nearest to both: begin, leaderships, kinderhook, negev, somewhat, 
recursive, switchable, zionist, [ 

Nearest to under: ich, beta, victorians, waldorf, recollections, 
searchable, ellipsis, biota, 

Average loss at step 100000 : 3.43271456218 

Nearest to english: french, german, irish, canadian, swedish, 
italian, arabic, spanish, 

Nearest to then: rarely, therefore, thus, finally, xenon, eventually, 
hermes, renormalization, 

Nearest to any: every, each, no, some, the, a, norwood, another, 

Nearest to both: all, various, classifying, bled, seventeen, 
expelled, micas, abuses, 

Nearest to under: within, following, halts, through, haploid, in, 
between, caret, 


程序 最 后 从 训练 的 归 一 化 向 量 集中 挑选 出 400 个 词 频 最 高 的 单词 向 量 。 使 用 
TSNE 类 ， 用 基于 主 成 分 分 析 PCA 的 降 维 算法 对 单词 向 量 降 为 至 2 HE, VET EF 
面 怪 标 系 中 显示 。 关 于 TSNE 类 的 使 用 可 以 从 Python 的 skleam 模块 中 了 解 其 相关 功 
能 和 参考 文献 。 


num points = 400 


tsne - TSNE (perplexity-30, n components-2, init-'pca', 
n iter-5000) 
two d embeddings = tsne.fit transform(final embeddings[l:num. 


points*1l, :]) 
最 后 plot 函数 负责 对 降 维 后 的 向 量 和 单词 名 称 画 出 散 点 图 。 如 图 7-1 所 示 。 


def plot (embeddings, labels): 
assert embeddings.shape[0] >= len(labels), 'More labels than 
embeddings' 
pylab. figure (figsize=(15,15)) # in inches 
for i, label in enumerate (labels) : 
x, Y= embeddings [i,:] 
pylab.scatter (x, y) 
pylab.annotate (label, xy=(x, Y): xytext=(5, 2), textcoords='offset 
points', 
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ha-'right', va-'bottom') 
pylab.show() 


words = [reverse dictionary[i] for i in range(1, num points*1)] 

plot(two d embeddings, words) 

sampled softmax lossHi E 11 个 参数 ， 如 表 7-2 BrzR. sampled softmax lossPü 
数 内 部 由 两 个 函数 组 成 。 一 个 函数 是 _ compute_sampled_logits 负责 计算 类 别 采 样 损失 
函数 对 应 的 Gy (可 参见 表 70). 58 — ^ m X» 
nn ops.softmax cross entropy with logits 负责 计算 尺寸 为 [batch 采样 包 大 小 , 1] 的 单 
个 样本 损失 函数 值 。 
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7-2 基于 softmax 采 样 包 训练 : 词 频 最 高 的 400 个 单词 向 量化 结果 降 维 后 的 显示 结果 


sampled_softmax_loss 函 数 与 _compute_sampled_logits 函数 的 输入 参数 基本 相同 。 
在 sampled_softmax_loss 内 部 调用 的 _compute_sampled logits 的 参数 输入 大 多 来 自 于 
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sampled_softmax loss 函 数 ， 仅 参数 subtract_log_q=True 不 同 。 该 参数 表明 损失 误差 
需要 减 去 类 别 采 样 的 概率 值 ， 以 实现 全 类 别 集 的 损失 函数 转换 。 在 不 同 的 类 别 采样 损 
失 函 数 中 该 值 的 具体 含义 是 不 同 的 .在 sampled_softmax loss 函 数 中 ,该 值 必须 为 True。 
compute sampled logits 函数 的 完整 源码 可 在 tensorflow/python/ops/nn impl.py 文件 
查看 。 


表 7-2 sampled_softmax_loss 函数 说 明 


参数 名 称 说 明 
Tensor 类 型 ， 尺 寸 为 [L, dim]。 其 中 工 为 全 类 别 集合 ，dim 为 线性 分 类 器 
特征 维 数 。weights 表示 各 类 别 的 线性 分 类 器 特征 权重 
biases Tensor 类 型 ， 尺 寸 为 [L]。biases 表示 各 类 别 的 线性 分 类 器 偏 移 
Tensor 类 型 ， 尺 寸 为 [batch_size,dim]。 其 中 batch 表示 采样 包 样本 数 怖 。 


weights 


hows dim 是 样本 特征 维 数 。inputs 表示 采样 包 煞 据 集 
labels Tensor 类 型 ， 数 据 类 型 为 int64。labels 表示 原始 数据 集 的 数据 类 别 
num sampled int 类 型 ,num_sampled 表示 负 样 本 类 别 的 采样 数 竹 
num_classes int 类 型 , num_classes 表示 可 能 的 类 型 集合 
num, true in 类 型 ， 样 本 可 能 含有 的 类 别 数 忆 。softmax 类 型 损失 函数 只 可 能 为 1 
sampled values HORE”, "ERIT, “采样 期 望 率 7 

. . bool 类 型 ， 标记 是 否 当 负 样 本 估计 类 别 采样 集合 中 含 有 且 标 类 别 样本 时 ， 
remove accidental hits 

i 将 该 类 别 移 除 
数据 包 划 分 策略 . 当 weights 表示 一 个 大 型 tensor 的 划分 组 合 时 ， 
partition strategy partition strategy 用 于 表示 划分 的 策略 。 包 括 div 整除 连 号 划分 和 mod 余数 
相等 划分 两 种 策略 。 若 weights 不 存在 划分 ， 则 该 值 无 意义 

name 指明 操作 名 称 。sampled_softmax_loss 操作 名 称 为 “sampled_softmax_loss” 


TensorFlow 中 _compute_sampled_logits 函数 的 代码 实现 如 下 所 示 。 该 函数 需要 对 
输入 参数 做 一 些 转换 ， 便 于 后 续 的 类 别 子 集 转换 。 首先 是 判断 输入 参数 weights 并 转 
换 为 列表 形式 。 其 次 是 将 类 别 标签 转换 成 类 型 为 64 位 整数 的 1 维 张 量 。 

def compute sampled logits (...subtract log q-True.. SE 

# 若 输入 参数 weights 不 为 列表 类 型 ， 则 将 其 装 换 为 列表 类 型 。 


if not isinstance (weights, list): 
weights - [weights] 


# 函 数 ops.name scope 从 列表 weights + [biases, inputs, labels] RA 
定位 到 所 处 的 网 络 图 。 并 用 参数 name 或 "compute_sampled_logits" 创 建 当前 网 络 图 栈 
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顶 创 建 一 个 块 ， 当 name 值 为 空 时 使 用 。 可 在 运行 时 通过 指定 操作 名 称 运行 操作 。 在 使 用 
tensorboard 画图 时 也 将 呈现 该 名 称 。 
with ops.name_scope(name, "compute sampled logits", 
weights + [biases, inputs, labels]): 
if labels.dtype !- dtypes.int64: 
labels - math ops.cast(labels, dtypes.int64) 
labels flat - array ops.reshape(labels, [-1]) 


# 若 标签 类 型 不 为 64 位 整形 ， 则 对 其 转换 。 并 将 类 别 标签 转换 位 1 维 数组 。 
if labels.dtype != dtypes.int64: 

labels - math ops.cast(labels, dtypes.int64) 
labels flat - array ops.reshape(labels, [-1]) 


使 用 默认 的 对 数 均 匀 分 布 对 样本 集 的 类 别 进行 采样 。 这 种 采样 方式 是 专门 针对 非 
均衡 数据 的 大 类 别 集训 练 的 。 可 从 TensorFlow 源码 range sampler.cc 中 定位 到 关键 的 
LogUniformSamplerSample::Sample 函数 。 


int64 LogUniformSampler::Sample(random::SimplePhilox* rnd) const 


const int64 value - 
static cast«int64» (exp (rnd-»RandDouble() * log range )) - 1; 
CHECK GE(value, 0); 
// Mathematically, value should be «- range , but might not be due 
to some 
// floating point roundoff, so we mod by range . 
return value $ range ; 
) 
假设 整个 样本 集合 有 L 个 类 别 {0,1...t,.…,L 一 1， 采 样 类 别 为 :，x 表 示 
RandDouble()*log range 语句 产生 的 [0, In(D) 区 间 的 均匀 分 布 的 随机 变量 。 仅 当 
x € [In(t + 1),In(t + 2) 时 ,采样 函数 获取 类 别 :。 因 此 类 别 t 的 采样 命中 概率 为 p(t)。 
可 见 ， 当 t 越 大 时 ， 样 本 集中 的 出 现 频率 越 低 ， 而 作为 负 样本 类 别 的 采样 密度 函数 越 
低 。 这 种 处 理 方式 确保 了 不 同样 本 类 别 概率 分 布 的 平滑 性 。 
l 2) -In(t* 1 
p(t) = n(t * = n( ) 
负 样 本 类 别 的 采样 操作 初始 值 由 函数 log, uniform candidate sampler 完成 ， 该 函 
数 内 部 核心 由 C++ 实现 ,有 兴趣 的 读者 可 以 在 candidate sampling ops.cc 文件 中 查看 。 
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在 源码 文件 range sampler.cc 的 函数 RangeSample::SampleBatchGetExpectedCountAvoid 
中 可 以 查看 采样 类 别 的 期 望 概率 的 具体 计算 实现 。 


类 别 子 集 预 测 期 望 0(y|xD 对 应 的 类 别 采 样 概率 为 1 一 (1 一 p(yremartes , p(t) 表 
示 类 别 t 的 采样 命中 概率 。 其 中 num_tries 表 示 采 样 次 数 。(1 一 p(t)) "mm 表示 
num_tries 次 采样 连续 不 命中 的 概率 值 。 令 num_sampled 表 示 负 样本 类 别 采 样 的 数量 。 
当 函 数 sampled_softmax_loss 作 为 损失 函数 时 ， 因 函数 log uniform candidate sampler 
中 的 参数 unique žy True, 所 以 负 样本 类 别 不 可 包含 重复 类 别 ， 对 应 的 采样 次 数 
num_tries>num_sampled。 这 里 并 没有 排除 负 样 本 类 别 与 目标 类 别 重复 的 情况 , 还 需 
要 对 这 种 特殊 情况 进行 晒 出 。 
+% log uniform candidate sampler 实现 负 样 本 类 别 的 采样 。 
4 sampled values 为 三 元 组 : 
# sampled 表示 负 样 本 类 别 集合 尺寸 为 (num sampled] fj tensor 
# true expected count 表示 目标 样本 对 后 类 别 的 在 负 样本 类 别 集合 中 出 现 
的 期 望 概率 。 尺 寸 为 [batch size, 1] 的 tensor 
# sampled expected count 表示 负 样 本 类 别 集合 在 采样 期 望 概率 。 其 尺寸 为 
[num sampled] 的 tensor 
if sampled values is None: 
sampled values = candidate sampling OPS. log uniform candidate | 
sampler( 
true classes-labels, 
num true-num true, 
num sampled-num sampled, 
unique-True, 
range max-num classes) 
# 注意 : 为 了 便于 pylint 解析 源码 结构 需要 对 元 组 rsampled_values' 进 行 拆 
分 
sampled, true expected count, sampled expected count - 
sampled values 


AT 7518 batch 数据 包 的 类 别 采 样 训练 ， 需要 将 目 标 类 别 标签 展开 并 和 采样 的 负 
样本 类 别 合并 。all_ids 表示 整个 采样 包 类 别 集合 。all_w 表示 采样 包 内 全 集 类 别 的 分 
类 权重 矩阵 ,alLb 表示 对 应 的 分 类 偏 移 tensorotrue_w 表示 目标 类 别 的 分 类 权重 参数 ， 
从 all w 裁剪 得 出 。true_b 表示 目标 类 别 的 分 类 偏 移 参数 ， 从 all. b 中 裁剪 得 出 。 函 数 
array ops.slice 有 3 个 输 入 参数 ,参数 1 是 被 切 分 的 tensor, 参 数 2 是 对 应 被 切 分 tensor 
的 维 数 偏 移 ， 参 数 3 是 切 分 长 度 。 
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# labels flat 是 尺寸 为 [batch_size * num true] ff) tensor 
# sampled 是 尺寸 为 [num_sampled] 的 tensor 
all ids = array ops.concat(0, [labels flat, sampled]) 


* weights 是 整体 数据 类 别 的 分 类 权重 矩阵 尺寸 为 [num classes, dim]. 
bias 是 分 类 位 移 偏 量 。 
all w = embedding ops.embedding lookup( 
weights, all ids, partition strategy-partition strategy) 
all b - embedding ops.embedding lookup(biases, all ids) 
# true w 尺寸 为 [batch size * num true, dim] 
* true b 尺寸 为 [batch_size * num true] tensor 
true w = array ops.slice( 
all w, [0, 0], array ops.pack([array ops.shape(labels flat) 
[0], -1])) 
true b - array ops.slice(all b, [0], array ops.shape(labels. 
flat)) 


使 用 下 面 的 代码 计算 输入 目标 类 别 特征 的 线性 分 类 判别 结果 。true_logits 保存 最 
后 的 计算 结果 。 


# inputs shape is [batch size, dim] 
# true w shape is [batch size * num true, dim] 
# row wise dots is [batch size, num true, dim] 
dim - array ops.shape(true w)[1:2] 
new true w shape = array ops.concat(0, [[-1, num true], dim]) 
row wise dots = math ops.mul( 

array ops.expand dims(inputs, 1), 

array ops.reshape(true w, new true w shape)) 
4 We want the row-wise dot plus biases which yields a 
# [batch size, num true] tensor of true logits. 
dots as matrix = array ops.reshape (row wise dots, 

array ops.concat(0, [([-1], dim])) 
true logits = array ops.reshape( sum rows(dots as matrix), [-1, 
num true]) 

true b - array ops.reshape(true b, [-1, num true]) 
true logits += true b 


从 类 别 全 集 分 类 权重 all_w 中 挑选 出 负 样 本 类 别 子 集 的 分 类 权重 sampled wo Jf 
用 类 似 的 方法 提取 出 分 类 偏 移 sampled_b。 最 后 ， 计 算 采 样 特征 对 应 负 样 本 类 别 的 线 
性 分 类 器 分 类 置信 和 度 ， 并 保存 在 sampled logits 中 。 每 一 行 表示 一 个 采样 样本 在 负 样 
本 类 别 子 集中 的 分 类 置信 度 。 
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# 通过 索引 方式 获取 负 样 本 类 别 分 类 权重 和 偏 移 量 

# ”sampled_w 的 尺寸 为 [num sampled, dim] 

# sampled b 的 尺寸 为 [num sampled] 

sampled w - array ops.slice( 

all w, array ops.pack([array ops.shape labels flat) [0], 

01), [-1, -1]) 

sampled_b = array ops.slice(all b, array ops.shape (labels flat), 
{-1]) 


inputs 的 尺寸 为 (batch size, dim]. 
sampled w 的 尺寸 为 (num sampled, dim] 
sampled b 的 尺寸 为 [num sampled] 
Apply X*W'-*B, which yields [batch size, num sampled] 
sampled logits - math ops.matmul( 
inputs, sampled w, transpose b-True) * sampled b 

sampled softmax loss}, # fi 采样 类 别 中 含有 目标 类 别 则 应 移 除 。 函 数 
compute accidental hits 负责 获取 有 目 标 类 别 集合 和 采样 类 别 集合 的 重合 标签 部 分 。 其 
中 acc. indices 保存 重 登 类 别 在 采样 类 别 labels 中 的 下 标 位 置 ，acc_ids 标记 重 谷 部 分 
在 类 别 采样 集合 中 的 下 标 位 置 ,acc_weights 尺寸 与 acc_indices 和 acc_ids 的 尺寸 相同 ， 
且 其 内 值 为 -FLT_MAX。 构建 稀 夏 矩阵 坐标 sparse indices 用 于 标记 sampled logits 中 
对 应 的 采样 负 样 本 类 别 与 目标 类 别 重生 的 位 置 。 最 后 对 sampled_logits 中 的 分 类 置信 
度 进行 修正 ， 使 与 目标 类 别 重 番 的 分 类 置信 度 为 -ELT_MAX。 


de dk dE Gt 


if remove accidental hits: 
acc hits = candidate sampling ops.compute accidental hitsí 
labels, sampled, num true-num true) 
acc indices, acc ids, acc weights = acc hits 


4 This is how SparseToDense expects the indices. 
acc indices 2d = array ops.reshape(acc indices, {-1, 1]) 
acc_ids_2d_int32 = array_ops.reshape ( 
math_ops.cast (acc_ids, dtypes.int32), {-1, 11) 
sparse_indices = array_ops.concat (1, [acc_indices_2d, 
acc_ids_2d_int32], 
"sparse indices") 
# Create sampled logits shape = [batch size, num sampled] 
sampled logits shape - array ops.concat( 
0, 
[array ops.shape (labels) [:1], array ops.expand dims (num. 
sampled, 0)]) 
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if sampled logits.dtype != acc weights.dtype: 
acc weights - math ops.cast(acc weights, sampled logits. 
dtype) 

sampled logits += sparse ops.sparse to dense( 
sparse indices, 
sampled logits shape, 
acc weights, 
default value-0.0, 
validate indices-False) 


# 使 目标 类 别 分 类 置信 度 与 负 样 本 类 别 分 类 置信 度 加 上 类 别 采样 概率 的 影响 。 


if subtract log q: 
# Subtract log of Q(1), prior probability that 1 appears in 
sampled. 
true logits -- math ops.log(true expected count) 
sampled logits -= math ops.log(sampled expected count) 


构建 采样 类 别 中 的 分 类 置信 度 输出 out logits 和 样本 标签 out_labels 。 在 
sampled_softmax_loss 中 ，out_logits 的 每 一 行 表示 一 个 特征 样本 对 应 的 目标 类 别 和 负 
样本 类 别 的 置信 度 输出 ， 且 目标 样本 的 置信 度 输出 在 前 num true 列 。 
sampled_softmax_loss 中 num true 7j 1, out. labels 的 每 一 行 表示 特征 样本 对 应 的 类 别 
标签 ， 其 中 只 有 前 num true 列 为 1/num trues 


# Construct output logits and labels. The true labels/logits 


start at col 0. 
out logits - array ops.concat(1, [true logits, sampled logits]) 
# true logits is a float tensor, ones like(true logits) is a 


float tensor 
# of ones. We then divide by num true to ensure the per-example 


labels sum 
4 to 1.0, i.e. form a proper probability distribution. 


out labels = array ops.concat(l, 
[array ops.ones like(true logits) / 


num true, 
array ops.zeros like(sampled logits)]) 

ZEjt, compute sampled logits 函数 执行 完毕 ， 它 的 返回 值 logits 和 labels 被 代入 
到 函数 nn_ops.softmax_cross_entropy_with_logits 中 按照 前 文 介 绍 的 softmax 损失 函数 
定义 计算 并 返回 一 个 尺寸 为 batch_size 的 tensor. 
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7.2.2 ”噪声 对 比 估计 类 别 采 样 损 失 函 数 


当 训练 数据 中 的 每 一 个 样本 (xi, TD) 由 上 下 文 相 关 特 征 和 多 类 标签 集合 Ti 组 成 - 
时 ， 一 个 样本 可 能 含有 多 个 类 标记 。 softmax 的 损失 函数 估计 方法 使 用 分 类 置信 度 函 
数 转换 概率 的 方式 来 预测 单个 类 标签 的 分 类 问题 。 与 此 不 同 ， 噪声 对 比 估计 类 别 采样 
方法 ， 将 整个 网 络 结构 认定 为 一 个 概率 密度 函数 。 输入 的 数据 包括 属于 目标 类 别 Ti 
数据 和 已 知 概率 分 布 的 噪声 样本 。 基 于 这 些 假设 ， 噪声 对 比 估计 损失 函数 期 望 能 最 大 
化 区 分 目标 类 别 数据 和 噪声 数据 的 概率 密度 函数 区 分 度 。 通过 反 向 传播 梯度 训练 模型 
参数 来 近似 计算 符合 目标 样本 概率 分 布 的 概率 密度 函数 。 


噪声 对 比 估计 的 模型 为 : 定义 非 归 一 化 概率 密度 函数 ph(.; a)» 令 
In(p%(.;0)) = In(pm(.;a))+c 
总 存在 一 个 “ 值 使 得 
| mt: 0)=1 


定义 概率 密度 函数 服从 p9.(.; 9) 分 布 的 目标 类 别 数据 X = Ory xz， .2Xr) 和 某 种 已 
知 概率 密度 分 布 函数 的 噪声 数据 Y = Oro Yor ¥r)> 则 整个 样本 集 U = (u, Uz …, U27) 
是 由 数据 集 X 和 数据 集 Y 所 构成 。 样本 wu, 的 数据 类 别 由 类 别 标签 Ce 表示 。 当 且 仅 当 
C, = 1 时 ,ue EX。 当 且 仅 当 Ct = OM, ue EY。 X 的 概率 密度 函数 形式 由 模型 结构 定 
义 ， 模 型 参数 由 训练 计算 得 出 。 关于 类 别 X 和 类 别 Y 的 概率 函数 如 下 公式 所 不。 


P(ulC = 1;0) = pau 0) 
P(u|C = 0) = pau) 
总 可 以 假设 类 别 标签 的 出 现 概率 相同 ， BIP(C = 0) = P(C =1)=0.5. TER 
们 可 以 获取 如 下 公式 所 示 的 后 验 概率 密度 函数 。 


pm(u; 8) 


P(C = 1|u; 0) = Dau; 6) 4 Pa) = h(u; 0) 
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Mu 8) = Tet] 


= r(G(u;0)) 
P(C = 0|u; 8) 21 — h(u;0) 


其 中 ， 令 r() 表 示 指 数 函 数 ， 


G(u; 0) = In(pm(u; 0)) — In(p, (u)) 
另外 ， 从 以 上 公式 可 以 看 出 样本 v 属 于 类 别 为 “1” 的 概率 服从 泊 松 分 布 。 泊 松 
分 布 被 广泛 用 于 单位 时 间 内 时 间 发 生 的 概率 统计 。 TE, 对 于 整个 样本 集 信息 粹 函数 
有 如 下 公式 所 示 : 
(0) = > In(P(C, = 1|u;;8)) + (4 — C) In( P(C; = Olus; 8))) 


= > ünfhGs; 6] + In[t — hoi 6)D 
t 


此 时 的 训练 问题 就 是 训练 参数 9 ， 使 得 以 上 公式 取 最 大 值 。 即 最 大 化 区 分 样本 类 
别 的 概率 密度 分 布 函数 和 噪声 概率 密度 分 布 函数 的 区 分 度 。 对 以 上 公式 进一步 展开 ， 
以 下 公式 与 logistic 损 失 函 数 的 定义 是 等 价 的 。 


I) = >》 Onir (npm (u; 8) — Inpa ()] + Inf — rnp lu; 8) = npa G2) 
t 


由 此 可 见 , 目标 函数 会 与 负 样 本 的 概率 密度 函数 相关 。 给 定 上 下 文 相 关 特 征 , 需 

要 估算 出 对 应 特征 向 量 的 目标 类 别 集合 中 各 类 别 的 概率 密度 概率 值 期 望 
POlx) = E(TO)|x) 

当 目 标 类 别 集合 中 仅 含 有 一 个 类 时 ， 此 时 的 训练 输出 就 仅仅 是 该 类 别 的 概率 值 。 
负 样 本 的 概率 密度 函数 是 已 知 的 或 是 预先 定义 好 的 。 

噪声 对 比 估计 的 特点 是 使 用 负 样 本 的 概率 密度 函数 与 目标 概率 密度 函数 进行 对 
比 。 前 文 已 经 提 到 , 定义 好 的 网 络 模型 就 是 我 们 假设 的 目标 概率 密度 函数 F(x, y)。 而 
训练 过 程 就 是 调整 模型 的 内 部 参数 ， 使 函数 F(x, 妨 尽 可 能 地 逼近 特征 向 量 x 对 应 的 目 
标 类 别 y 的 相对 对 数 后 验 概率 对 数值 ， 即 
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f Gy) € In(POIX)) © In(pm(u; 0)) 

对 于 训练 样本 (xu T), 我 们 对 单个 的 类 标签 进行 拆 分 合并 形成 集合 ,但 这 里 使 用 
多 标签 组 抽样 描述 是 为 了 不 失 一 般 性 。 例 如 ,多 类 标签 组 可 以 是 
L = {{1,2), (3,45) (3,4} 这 种 形式 ， 拆 分 合并 后 的 类 别 集合 是 L = {1,2,3,4,5}。 噪 声 对 
比 估计 的 噪声 类 别 抽样 函数 可 以 与 上 下 文 特征 x 相关 或 无 关 ， 但 不 应 与 目标 类 别 Ti 相 
关 。 构 建 一 个 类 别 子 集 包括 目标 类 别 集合 和 负 样 本 类 别 集合 的 所 有 类 别 。 这 里 允许 负 
样本 类 别 集 5 中 含有 与 目标 样本 Ti 含有 相同 的 类 别 标签。 

Ci = T; + Si 

此 时 ,我们 的 训练 任务 就 是 通过 目标 函数 的 概率 密度 输出 和 噪声 样本 的 概率 密度 
输出 计算 损失 函数 。 经 过 训练 ,从 目标 类 别 和 噪声 类 别 中 判别 出 样本 的 目标 类 别 。 对 
于 正 样本 目标 类 别 7, 和 采样 负 样本 类 别 5 都 有 一 个 代表 性 的 训练 样本 实例 ， 即 这 两 个 
集合 的 样本 上 下 文 应 具有 一 定 的 区 分 度 。 

不 失 一 般 性 , 在 负 样 本 概率 分 布 函数 未 知 的 情况 下 , POORT AEE TA 
关 特 征 采 样 类 别 的 概率 分 布 。 令 噪声 类 别 组 集合 Si 不 存在 重复 的 单个 类 标签 则 有 如 下 
公式 : 

QOlx) = EGODEO = Pa) 
令 负 样本 类 别 采样 概率 为 噪声 概率 密度 分 布 有 如 下 公式 : 
G(u; 8) = In(pm(u; 0)) — In(pa 2) = (POI) 
模型 预测 概率 
—In(QGl3)) = Gy) = ( THES ) 

通过 以 上 转换 可 将 噪声 对 比 估计 变换 为 softmax 类 别 采样 的 目标 函数 的 计算 形式 ， 
EEG, y) = MPO) — In(QOylx)。 其 中 ,PC 是 采样 类 别 子 集 的 类 别 期 望 输 
出 。 在 此 基础 上 ， 引 入 -In(Q(Cylz) 来 表示 对 比 噪声 的 概率 密度 函数 ， 即 实现 了 数据 
包 关 别 子 集 损失 函数 值 至 全 类 别 集合 的 概率 的 转换 。 噪 声 对 比 估计 对 模型 参数 的 更 新 
只 发 生 在 类 别 子 集 内 部 。 


实际 上 TensorFlow 内 部 的 nce_ loss 函 数 和 sampled_softmax_loss 函 数 的 实现 都 采 
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用 了 _compute_sampled logits 函数 来 计算 损失 函数 的 输入 参数 。 因 为 实际 训练 样本 中 
并 不 存在 噪声 负 样 本 ， 按 照 噪声 对 比 估计 联合 概率 信息 焙 的 定义 ， 当 6(u; 9) 取 最 大 
值 时 信息 糖 可 取得 最 大 值 。 因 此 ，nce_loss 函 数 与 sampled_softmax loss 函 数 的 不 同 在 
于 以 下 两 点 。 


1. nceloss 函数 内 部 调用 _compute sampled logits 时 ， 输 入 参数 
remove accidental hits 为 False。 也 就 是 说 ,噪声 对 比 佑 计 人 允许 负 样 本 估计 类 别 采样 
类 别 中 含有 目标 样本 类 别 。 在 上 一 节 已 经 强调 , 整个 模型 被 认为 是 区 分 目标 类 别 概率 
分 布 函 数 和 负 样 本 类 别 概率 分 布 函数 的 判定 函数 , 即 同一 上 下 文 特征 中 对 应 不 同类 别 
的 概率 应 该 是 不 相同 的 。 


2. 损失 函数 的 计算 公式 不 同 。nce_loss 采 用 如 下 公式 来 计算 损失 函数 值 : 








loss = 2o *(—In(G@,y))) + (1 - y) x -In(1 - G(x, 3))) 


而 sampled_softmax_loss 使 用 如 下 公式 计算 : 


loss = Ù (-G(, ti) + In( Y. expGou yyy) 
i y€POSjUNEG; 
在 上 一 小 节 中 ， 单 词 向 量化 的 例子 里 使 用 了 sampled_softmax loss 损 失 函 数 对 模 
型 进行 训练 。 这 个 例子 同样 也 可 以 将 噪声 对 比 估 计 类 别 采 样 方法 用 于 损失 函数 的 计算 
进行 训练 ， 只 需 将 原来 的 ttnn.sampled_softmax_loss 被 替换 为 万 nn.nce loss; 


由 以 下 代码 可 知 , 初始 时 损失 函数 值 为 288.05871582 ， 随 着 迭代 次 数 的 增加 , JE 
样本 的 概率 密度 分 布 和 采样 类 别 概率 分 布 的 区 分 度 会 变 大 。 经 过 10000 次 训练 后 , 损 
失 函 数值 下 降 为 9.35187676847。 需要 说 明 的 是 , 噪声 对 比 估计 损失 函数 与 softmax 类 
别 采 样 损失 函数 的 定义 是 不 同 的 , 不 能 仅 从 损失 函数 值 来 比较 两 者 的 优化 性 能 。 单词 
english 的 相似 单词 包括 french, spanish, russian 等 ， 单 词 under 的 相似 单词 包括 in, 
during, within 等 .将 向 量化 的 词 频 最 高 的 400 个 单词 进行 2 维 降 维 处 理 , 如 图 7-2 所 示 。 


Average loss at step 0 : 288.05871582 
Nearest to english: darwin,  whigs, malignancies, veteran, 


undeniably, forgot, pounder, penzias, 
Nearest to then: urbanization, abstractions, counterrevolutionary, 


reestablishment, summon, defied, danelaw, emotion, 
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Nearest to any: excision, gildas, steadily, samyaksam, lemming, 
kyrenia, makers, arthritis, 

Nearest to both: minimally, albret, rocks, rotates, litas, dijon, 
pynchon, mjd, 

Nearest to under: rear, mc, grays, embryonic, zirconium, compost, 
phospholipids, nyc, 

Average loss at step 100000 : 9.35187676847 

Nearest to english: french, spanish, russian, welsh, american, 
italian, chinese, jewish, 

Nearest to then: UNK, thus, when, it, five, seven, four, therefore, 

Nearest to any: each, a, no, some, this, another, the, or, 

Nearest to both: however, two, especially, rest, all, which, three, 


many, 
Nearest to under: in, during, within, while, among, despite, seven, 


six, 


ao free cepi Prose - NH) 


ges. 

pn M E EE og 

Miu o a al tem oni wuy iad 
aag er et waft RM ure a 


图 7-2 基于 NCE 采样 包 训练 : 词 频 最 高 的 400 个 单词 向 量化 结果 降 维 后 的 显示 结果 


从 上 述 运行 结果 可 以 看 出 ， 在 本 例 中 使 用 nce loss 后 的 向 量化 结果 并 没有 明显 提 
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升 。 损 失 函 数 、 模 型 结构 和 训练 数据 对 最 终 的 训练 结果 都 会 有 影响 。 具 体 问题 要 具体 
分 析 ， 作 为 损失 函数 的 计算 方法 ， 如 表 7-1 所 示 ，softmax 和 nce_loss 都 有 自身 的 适用 
范围 ， 在 应 用 时 需要 多 加 思考 。 


7.2.3” 负 样本 估计 类 别 采样 损失 函数 


负 样 本 估计 类 别 采样 是 一 种 简化 的 噪声 对 比 估 计 类 别 采样 方法 ,噪声 对 比 估计 强 
调 , 目标 类 别 样本 数据 的 概率 分 布 和 噪声 数据 的 概率 分 布 函数 的 区 分 度 应 该 尽 可 能 大 。 
Tensorflow 中 的 噪声 对 比 估计 的 噪声 类 别 概率 密度 函数 为 类 别 采样 函数 。 单词 向 量化 
问题 的 关键 在 于 向 量 能 否 较 好 地 反 喘 单词 问 的 相似 或 差异 程度 噪声 函数 的 概率 密度 
函数 本 身 并 不 是 问题 的 关键 。 对 于 单词 向 量化 这 一 问题 , 可 以 使 用 如 下 公式 来 定义 损 
失 函 数 ， 以 更 好 地 反映 问题 优化 的 优 劣 。 





k 
x loga (vwo Yw) + 2 Ewi~pn(w) logo(—vw,T vw))) 
T - 


其 中 必 表 示 标签 单词 ，wo 表 示 与 标签 单词 w 对 应 的 上 下 文 相关 单词 ，Ww 表 示 与 
标签 单词 ww 上下文 无 关 的 负 样 本 单词。 表示 单词 向 量化 结果 。 进 行 噪声 对 比 估计 时 ， 
考虑 到 类 别 子 集 负 样 本 估计 的 损失 函数 没有 考虑 采样 函数 0 (ylx) 的 影响。 因此 ,从 噪 
声 对 比 估计 类 别 采样 方法 的 目标 函数 再 近 公式 推导 可 知 , 负 样本 估计 类 别 采 样 方法 下 
的 目标 函数 逼近 为 In(ECxlz)) -In(QCylz)。 


值得 注意 的 是 , 负 样本 估计 方法 会 使 目标 函数 逼近 一 个 与 类 别 采样 概率 分 布 函数 
Q@O|x) 相 关 函 数 。 这 会 使 最 终 的 函数 优化 结果 与 采样 分 布 函数 的 选取 高 度 相关 。 这 一 
点 是 与 这 里 描述 的 其 他 所 有 类 别 采 样 函数 都 不 同 的 。 

TensorFlow 内 部 并 没有 直接 实现 类 别 采 样 的 负 样 本 估计 损失 函数 。 在 函数 
nce_loss 调 用 的 函数 compute sampled logits 的 注释 中 ， 可 以 发 现 当 输入 参数 
subtract_log_q=False 时 ， 修 改 nce loss 函 数 内 部 的 输入 参数 即 为 负 样本 估计 类 别 采 样 
估计 。 

7.2.4 ZARE logistic 损失 函数 

类 别 子 集 logistic 损 失 函 数 是 噪声 对 比 估计 类 别 采 样 方法 的 另 一 种 特殊 情况 。 它 是 

指 在 噪声 对 比 估计 类 别 采 样 方法 中 , 采样 包 的 负 样 本 类 别 集合 中 不 包含 有 目标 样本 类 
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别 的 特殊 情况 。 类别 子 集 logistic 损 失 函 数 要 求 目标 类 别 必须 为 单 类 别 集合 ,而 负 样 本 
类 别 集合 8! 则 可 以 为 多 类 别 集合 。 这 种 训练 方式 相当 于 目标 类 别 特征 与 噪声 类 别 特征 
分 属于 两 个 不 同 的 自 变量 区 间 。 根 据 噪声 对 比 估计 中 6(x, 7) 的 定义 可 知 , 有 如 下 公式 ; 





G(x, y) = lo ELE =lo (coe n) 
-log SOME T) QT - POTO) 
P(ylx) 
= log (225) — log(Q(y|x)) 
公式 的 第 一 项 log (FO) ERNE ERAF (e 的 逼近 函数 。 在 实际 的 模 


型 中 ,使 输出 层 表示 为 F(x,y)。 但 因 采 样 类 别 子 集 的 影响 , 输出 层 的 实际 值 需 要 加 上 
一 log(Q(y|x))， 此 时 的 逻辑 回归 损失 函数 的 输入 为 F(x,y) 一 log(Q r1) e 并 以 此 带 
入 反 向 传播 更 新 权重 来 辨别 样本 类 别 y 是 来 自 目标 类 别 集合 Ti 还 是 来 自负 样本 集合 类 


别 St。 因 反 向 传播 误差 考虑 了 采样 概率 ， 故 目标 函数 P(x 将 逼近 为 log (FO) 





类 别 子 集 logistic 损 失 函数 可 以 简单 地 视 为 噪声 对 比 估计 的 特例 。 从 TensorFlow 
中 函数 nce_ loss 的 定义 可 知 , 将 默认 参数 remove, accidental hits 设置 为 Tmue 即 可 实现 
该 逻辑 。 


7.3 AMG 


本 章 介绍 了 TenserFlow 中 实现 的 几 种 常用 的 目 标 函 数 优化 算法 和 类 别 子 集 采 样 
损失 函数 。 

在 GradientDescentOptimizer、RMSPropOptimizer 和 AdamOptimizer 三 种 优化 器 
中 ，GradientDescentOptimizer 的 逻辑 相对 简单 ， 所 有 模型 参数 使 用 相同 的 学 习 率 。 
RMSPropOptimizer 和 AdamOptimizer 通过 统计 各 模型 参数 梯度 均值 或 方差 ， 根据 模 
型 参数 当前 的 梯度 变化 趋势 ， 对 不 同 模 型 的 参数 学 习 率 进行 了 不 同 缩 放 。 
AdamOptimizer 算法 考虑 了 训练 的 迭代 次 数 ， 以 期 更 好 地 估计 梯度 变化 的 情况 进行 梯 
度 更 新 。 


类 别 子 集 采样 损失 函数 是 一 种 针对 大 类 别 数据 集 的 训练 加 速 技术 。 其 主要 思想 是 
在 每 一 次 分 组 数据 训练 时 , 通过 类 别 采样 函数 获取 的 负 样本 类 别 。 通 过 优化 类 别 子 集 
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的 期 望 值 ， 来 逐步 优化 全 类 别 集合 的 近似 期 望 值 。TensorFlow 中 主要 包括 
sampled softmax loss 和 nceloss 这 两 种 类 别 子 集 采 样 损失 函数 。 
sampled_softmax_loss 适 用 于 单 分 类 问题 ， 整 个 模型 被 视 为 判别 函数 ， 且 各 类 别 间 的 
相关 性 越 小 越 好 。nce_loss 适 用 于 多 分 类 问题 ， 模 型 被 视 为 概率 密度 函数 ， 人 允许 不 同 
的 类 别 间 存 在 一 定 的 相关 性 。 负 样本 估计 与 类 别 子 集 logistic 损 失 函 数 都 可 以 视 为 是 
nce_loss 函 数 的 特例 。 其 中 ， 负 样本 估计 忽略 了 类 别 采样 函数 的 作用 ， 即 噪声 样本 概 
率 密度 的 作用 。 仅 优化 样本 自身 概率 区 分 度 。 这 种 方式 的 训练 结果 将 极度 依赖 负 样 本 
的 采样 类 别 。 训 练 结果 是 不 稳定 的 。 类 别 子 集 logistic 损 失 函 数 则 要 求 目标 样本 与 噪声 
样本 的 训练 特征 区 间 不 存在 重 簿 区 域 。 即 在 负 样 本 估计 类 别 采 样 类 别 中 , 不 允许 含有 
目标 类 别 。 无论 是 使 用 先 验 知识 或 进行 实验 测试 , 针对 训练 数据 的 特性 选择 合适 的 函 
数 优化 策略 和 损失 函数 都 是 十 分 必要 的 。 
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纵 观 深度 学 习 技术 的 发 展 历程 , 可 以 发 现 计算 机 正在 经 历 一 场 认 知 革命。 计算 机 
从 只 认识 一 个 个 独立 的 像素 值 ， 到 “看 懂 ” 一 张 图 片 中 的 每 个 物体 ; 从 只 能 简单 存储 
一 个 个 单词 字符 串 ,， 到 “能 说 会 道 ” 地 理解 和 表达 出 具有 完整 语义 的 句子 甚至 在 决 
策 方面 ， 以 AlphaGo 为 代表 的 决策 类 算法 ， 能 够 作出 比 人 类 更 加 明智 的 决定 ， 这 些 
无 一 不 是 令 人 惊讶 而 又 兴奋 的 成 果 。 


TensorFlow 凭借 Google 强大 的 科研 和 工程 能 力 ， 构筑 了 极其 强大 易 用 的 基础 平 
台 , 可 以 让 研究 人 员 非 常 便利 地 尝试 实现 各 种 算法 模型 ， 并 充分 利用 分 布 式 技术 提高 
训练 效率 、 降 低 训练 周期 。 同 时 ， 深 度 学 习 领 域 的 研究 与 应 用 也 通过 TensorFlow 这 
样 一 个 平台 轻松 地 联接 在 了 一 起 ， 开发 者 能 够 直接 将 研究 所 得 的 成 果 转 化 为 符合 真实 


深度 学 习 如 今 仍然 是 处 在 快速 发 展 过 程 中 的 一 个 技术 方向 ,研究 实验 中 所 取得 的 
各 种 成 绩 并 不 会 成 为 终点 。 在 高 性 能 计算 硬件 、 大 数据 、 编程 框架 等 多 种 技术 的 支持 
下 ， 相 信 在 不 远 的 将 来 ， 深 度 学 习 终 将 成 为 改变 人 类 生活 方式 的 重要 基石 。 
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F 深度 学 习 原 理 与 TensorFlow 实践 


模型 发 展 出 更 深 的 结构 、 更 大 的 规模 也 是 必然 趋势 。 更 何况 实验 已 经 证 明 ， 更 大 的 模 
型 能 够 达到 更 好 的 表现 。 以 图 像 识别 为 例 ， 拥 有 8 个 参数 层 的 AlexNet 在 ImageNet 
大 规模 视觉 识别 挑战 (ILSVRC ) 中 将 图 像 分 类 的 错误 率 降低 到 15.3%, 而 有 19 个 参 
数 层 的 VGGNet 的 分 类 错误 率 只 有 7.3%, 现今 最 大 、 最 深 的 ResNet 有 超过 150 个 参 
数 层 ， 分 类 错误 率 仅 为 惊人 的 3.57%， 这 已 经 是 超越 人 类 能 力 的 成 绩 。 


可 以 预见 的 是 , 深度 学 习 在 未 来 将 能 处 理 越 来 越 复杂 的 任务 , 也 注定 会 在 我 们 日 
常生 活 中 扮演 越 来 越 重 要 的 角色 。 
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图 1-6 ”自从 隐 层 结构 提出 以 来 ， 神 经 网 络 的 神经 元 数 二 每 2.4 年 翻 一 番 。 图 中 各 编号 代表 的 分 别 为 : 1. 

感知 机 ( Perceptron ); 2. 自 适应 线性 单元 ( Adaptive linear element ); 3. 神 经 认 知 机 ( neocognitron ); 4. 早 其 

反 向 传播 网 络 ，5. 用 于 语音 识别 的 递归 神经 网 络 ; 6. 用 于 语音 识别 的 多 层 感知 机 ;7.sigmoid 置信 网 络 ; 8. 

LeNet-5; 9. 回 声 状态 网 络 ( Echo state Network ); 10. 深 度 置信 网 络 ( Deep belief network ); 11. GPU 加 速 的 

卷 积 网 络 ; 12. 深 度 玻 尔 兹 曼 机 ( Deep Boltzmann machine ); 13. GPU 加 速 的 深度 置信 网 络 ; 14 , 非 监督 卷 积 

网 络 ; 15. GPU 加 速 的 多 层 感知 机 ; 16. OMP-1 网 络 ; 17. 分 布 式 自动 编码 器 ( Distributed autoencoder ) 18. 
多 GPU 加 速 的 卷 积 网 络 ;19. COTS HPC 非 监 督 卷 积 网 络 ; 20. GoogLeNet 
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